🤖AI несеться: боротьба з аудіодіпфейками, багато оновлень від OpenAI та Anthropic

На зв’язку AI HOUSE! Починаємо з кількох наших апдейтів, а далі все як любимо — важливі новини та цікаві історії зі світу AI:

Нещодавно вийшов новий випуск AI HOUSE Podcast. Гість епізоду – Богдан Бобиль, Research Lead у SQUAD та викладач факультету комп’ютерних наук та кібернетики в КНУ ім. Тараса Шевченка. З ним поговорили про MLOps, а саме про процес роботи з моделями, метрики, які потрібно трекати в продакшені, потребу в MLOps та коли вона з’являється, ML в моніторингу та багато іншого. Дивіться на нашому YouTube-каналі або слухайте на зручних для вас подкаст-платформах.
Ділимося крутою можливістю – відкрито набір до літньої школи з Quantum Machine Learning від УКУ. Чекають на ентузіастів з квантових обчислень з 26 липня по 3 серпня. Реєстрація триватиме до 17 липня. Найкращі зможуть отримати грант на участь від квантового стартапу Haiqu та від нас, AI HOUSE.

А тепер — до AI-новин! Сьогодні розбиратися з найголовнішими з них нам допоможе Дмитро Кузьменко — Data Science Engineering Manager у LITSLINK, старший викладач факультету інформатики Національного університету «Києво-Могилянська Академія».

1. Пачка оновлень від OpenAI

Компанія почала тренувати нову модель <привіт, GPT-5?>, і вже сформувала для цього безпекову раду, куди входять генеральний директор OpenAI Сем Альтман, голова ради директорів Брет Тейлор, а також чотири технічні та політичні експерти компанії. Цікаво, що рада з'явилася якраз тоді, коли навколо компанії розгортаються дебати щодо безпеки ШІ. Нещодавно OpenAI розформувала команду Superalignment, яка відповідала за безпечний розвиток технології, а компанію покинули Ілля Суцкевер та Ян Лейке — дослідники, що очолювали цю команду. Суцкевер пішов відносно тихо, натомість Лейке розкритикував OpenAI за те, що компанія «ігнорує питання безпеки», щоб «випускати більше гучних продуктів» <спойлер — Лейке перейшов до одного з головних конкурентів OpenAI, але про це далі>.
OpenAI тимчасово припинила використання голосу Sky в ChatGPT через його схожість з голосом Скарлетт Йоханссон, після того, як актриса пригрозила компанії судовим позовом. В компанії пояснили, що голос належить іншій акторці, а така схожість є випадковою і навіть передали в ЗМІ документи, що підтверджують це. Сама акторка, що озвучувала Sky, також невдоволена ситуацією, адже це її «природний голос», і раніше ніхто не порівнював її з Йоханссон. З усім тим, в компанії вирішили не випробовувати долю та не доводити справу до суду та вибачились перед Йоханссон.
Поповнення в колекції: OpenAI запартнерилась з The Atlantic та Vox Media <Vox, The Verge, Eater, New York Magazine> і буде використовувати їхній контент для тренування своїх моделей.
Очікуване-неочікуване: OpenAI викрила групи з росії, Китаю, Ірану та Ізраїлю, що використовували ChatGPT в пропагандистських цілях. Вони писали пости, перекладали їх різними мовами та створювали ПЗ, яке допомагало їм автоматично публікувати це все у соціальних мережах. Жодній з груп не вдалося сильно вплинути на світовий дискурс, адже охоплення були невеликі, проте тренд очевидний — пропагандисти все активніше використовують AI у своїх кампаніях.
ChatGPT Edu — новий чат-бот, призначений для студентів, науковців і викладачів. Edu працює на базі GPT-4o, має вищі ліміти на кількість повідомлень, дозволяє створювати власні GPTs і ділитися ними в межах університетських робочих просторів. Розмови та дані з Edu не будуть використовуватися для подальшого навчання моделей OpenAI.
OpenAI перезапускає дослідницьку групу з робототехніки, яку було закрито в липні 2021. Зараз компанія шукає інженера-дослідника робототехніки, а нещодавно проінвестувала в стартап Figure AI, що займається розробкою роботів.

Коментар Дмитра: Багацько апдейтів від ОpenАІ звісно, але це не означає, що це «мінорні» новини. Те, що зараз відбувається з безпековими відділами – розформуванням superalignment team, переходу кадрів з OpenAI до Anthropic – це в принципі очікувано. Ентропія довкола цих питань досить висока і спадати поки не планує, адже AI-гіганти, попри наявність найтоповіших фахівців світу, ще поки розбираються з interpretability своїх систем, застосуваннями, і новими можливостями своїх продуктів. І звісно грають у свої конкурентно-політичні ігри. GPT-4o та інцидент зі Sky — яскравий приклад цієї високої ентропії. Я детально не розбирався і не вичитував, але може бути що голос дійсно не був модифікований навмисно, але довести це важко. Відповідно, мув OpenAI про forfeit and apology перед Йохансон — правильний мув, на мою думку.

Бачте, трохи шифтять свою парадигму ОАІ: будуть тренувати на Vox, The Verge, etc. (доцільно, бо unharmful, а дані хороші), але не будуть тренувати на ChatGPT Edu для студентів і викладачів — дуже доцільно! Створюється позитивний моментум довіри до компанії, щоб академіків не чіпали :) Взагалі ця тула мені здається хорошою ініціативою, я б сам користувався і саме за причини сек’юрності даних. GPT-4o далеко не всюди кращий на GPT-4-turbo, як показала практика, але вже най буде.

Репорту, наданому компанією про harmful usage чату усілякими переважно ворожими народами, я був дуже приємно здивований. Дякую за transparity, дядюшко Семюел! Аналітику збирають, значить можуть і активно протидіяти за великого бажання, і це єдине, чого хочеться.

Ну і напевно найцікававіша особисто для мене новина — про перевідкриття Robotics group! Давно цього чекали та ось нарешті дочекались. Те, що 2024 — рік robotics — це не те що зрозуміло вже давно, це ще тільки початок. За цим — за RL, за мультимодальними Vision-Language-Action моделями — майбутнє, і побачимо чим цьому посприяє оновлена ініціатива від OpenAI.

2. Пачка оновлень від Anthropic

Користувачі чат-бота Claude тепер зможуть створювати власних AI-асистентів. Це не повноцінні AI-агенти, проте точно крок у цьому напрямі, адже боти працюватимуть на базі різних API і зможуть автоматизувати різні процеси. Наприклад, такий AI-асистент зможе проаналізувати вашу історію покупок та створювати персональні рекомендації; купувати квитки, обробляти запити в електронній пошті. Щоб створити асистента, потрібен лише доступ до API та вміння програмувати.

Дослідники Anthropic випустили цікаве дослідження <пейпер тут>, у якому вони пробують розібратися, як же думає AI на прикладі Claude Sonnet. Фактично це перший випадок, коли хтось зміг так глибоко «залізти під капот» сучасної великої AI-моделі. Дослідники застосували техніку «навчання словника» <dictionary learning>, яка ізолює шаблони активації нейронів, що повторюються в багатьох різних контекстах. Це дозволило їм виявити особливості, що відповідають величезному спектру абстрактних концепцій, а також маніпулювати цими особливостями, щоб побачити, як змінюються відповіді Claude. Наприклад, вони змусили його написати шахрайського листа, хоча зазвичай чат-бот відмовляється це робити. Це відкриття може допомогти зробити AI-моделі безпечнішими в майбутньому, відстежуючи небезпечну поведінку або видаляючи певний небезпечний контент.

Ян Лейке <той що пішов з OpenAI через незгоду з безпековою політикою компанії> приєднався до Anthropic, де він очолить… команду з Superalignment. Іронічно. Нагадаємо, що Anthropic також сформували колишні співробітники OpenAI, яким не подобалось, як розвивається компанія.

Коментар Дмитра: Чесно, не дуже плідно слідкую за апдейтами від Anthropic останнім часом, але схоже на те, що своїми АІ-асистентами вони продовжують наздоганяти OpenAI та тримати активну позицію в цих перегонах. Подивимось, наскільки воно якісне буде, але вже багатьом юзерам Opus’у буде + приємна фіча.

Ой, на момент написання цього коментаря, я тільки вчора увечері прийшов з офлайн-запису ювілейного подкасту АІ HOUSE, де Олеся Петріва — людину, яку я знав ще до Reface як колегу з Могилянки й колись питався в нього консультації по якомусь проєкту, — я не впізнав. В хорошому сенсі слова :) Він дуже багато і впевнено розказував про речі, дуже сусідні з neuromorphic computing, новими штучними нейронами й цілими обчислювальними кластерами, що базуються на біоорганізмах. Було цікаво послухати — я не очікував, що Олесь таку базу прокачав в цьому напрямку :) Так от, я це до того, що зараз впевнено розвивається науковий напрямок, який вивчає всі ці питання — дослідження когнітивних спроможностей нейромереж, альтернативні обчислювальні біостанції на основі міцелію, отримання першої свідомості. І звісно ж те, що зробили Anthropic у своєму рісьорчі, — це вже прикладний початок цього напрямку і досить непоганий його приклад.

Я не думаю, що OAI — під загрозою від цих переходів певних кадрів до Anthropic, зважаючи на те, як швидко вони повернули собі першість на lmsys-лідерборді, але теншн зростає, а конкуренція розвивається. Для нас, як для спостерігачів-рісьорчерів з боку – це дуже добре. Бо монополія на ринку нікому не потрібна, а від адекватної конкуренції домейн активно росте. Тільки головне, щоб вона все ж була адекватна :)

3. Кодери на місці? Для вас тут оновлення від Mistral

Компанія Mistral представила свою першу модель для генерації коду — Codestral. Вона натренована на наборі даних з понад 80 мов програмування, включаючи найпопулярніші, як-от Python, Java, C++, JavaScript. Модель оупенсорсна, має 22 млрд параметрів.

Компанія стверджує, що Codestral є найкращою моделлю для написання коду у порівнянні з конкурентами на кшталт CodeLlama як завдяки якості роботи <про що говорять бенчмарк-оцінки>, так і завдяки більшому контекстному вікну <32к токенів у порівнянні з 4-16к у конкурентів>. Спробувати Codestral можна в Le Chat.

Коментар Дмитра: Я не фанат low-code/no-code систем, принаймні поки що, але я дивився цю модельку, читав відгуки у твітері — виглядає досить непогано, і, якщо судити чисто по бенчмаркам і по контекстуальним спроможностям моделі, — це дуже хороший крок вперед в кодерах-асистентах. Будемо чекати й дивитись на релізи нових моделей і від інших компаній, окрім Mistral.

Що ще нового у світі AI

💻Microsoft представила ноутбуки Microsoft Surface Laptop, оптимізованих для роботи з AI, які, за обіцянками компанії, будуть на 58% швидшими за MacBook Air з процесором M3. Перші моделі з процесорами Qualcomm вийдуть 18 червня. Крім того, Google анонсував Chromebook Plus вартістю $350 з інтегрованими AI-можливостями, які допомагатимуть власнику працювати з текстами <за допомогою функції Help me write й чат-бота Gemini> та зображеннями <інструмент Magic Editor>. Схоже, Google прагне зробити передові AI-технології доступними навіть у бюджетному сегменті ноутбуків — це, як мінімум, цікаво.

📸Анонсована для Windows 11 AI-функція Recall, яка робить скриншоти всієї активності користувача комп’ютера, стала повним провалом для Microsoft. Експерти з кібербезпеки попереджають, що Recall не приховує паролі та фінансові дані на знімках екрана — і навіть те, що скріни зберігаються виключно на комп’ютері, не робить проблему меншою. Британські наглядові органи вже розпочали розслідування проти компанії. Схоже, Microsoft доведеться серйозно доопрацювати Recall, перш ніж випускати її на ринок.

✍🏼Провідні технологічні гіганти, серед яких Microsoft, OpenAI, Anthropic, xAI підписали безпекову угоду. Компанії беруть на себе добровільні зобов'язання щодо безпечної розробки своїх найпередовіших AI-моделей. Вони створять рамки безпеки, які визначатимуть виклики та «червоні лінії» для своїх передових систем та впровадять «аварійні вимикачі», який зупинить розробку їхніх AI-моделей, якщо компанії не зможуть гарантувати зниження цих ризиків.

💰xAI залучила $6 млрд в рамках раунду фінансування Серії B з оцінкою компанії у $24 млрд. Кошти підуть на розробку продуктів, інфраструктури та прискорення досліджень. Маск прогнозує появу AGI вже наступного року, а залучений капітал допоможе забезпечити xAI необхідними обчислювальними потужностями для подальшого масштабування.

🎧Стартап Iyo, створений експрацівниками Google, розробляє «розумні» бездротові навушники з використанням генеративного AI, в надії досягти успіху там, де зазнали невдачі Humane зі своїм Ai Pin та Rabbit з гаджетом R1. Водночас які саме унікальні функції забезпечить штучний інтелект поки не уточнюється. Слідкуємо.

📝Верховна Рада ухвалила законопроєкт, який передбачає відповідальність за плагіат і використання AI для написання наукових робіт. За порушення можуть відрахувати з навчального закладу або ж позбавити стипендії чи наукового ступеня. Якщо ж автор використовував AI, він обов’язково має вказати це у методиці формування чи послатися на інструмент.

📜Perplexity AI представила Perplexity Pages. Користувачі зможуть створювати вебсторінки зі згенерованим штучним інтелектом контентом. Користувачі можуть адаптувати стиль написання, а також змінювати структуру, додаючи, видаляючи або змінюючи порядок розділів. Крім того, інструмент автоматично додає візуальні елементи, які можна додатково налаштувати.

✂️Після гучного запуску AI Overviews — «сумаризатора» інформації у відповідь на запити користувачів, — Google, схоже, почав згортати цю функцію через численні помилки та недоліки. Так, наприклад, можна було отримати пораду додавати клей у піцу та їсти каміння для отримання поживних речовин. Компанія визнала, що їй слід було запускати цю функцію повільніше, і тепер працює над мінімізацією помилок. Однак в довгостроковій перспективі Google не планує відмовлятися від AI Overviews.

🤖ElevenLabs представила Text to Sound Effects — новий інструмент, який дозволяє генерувати звукові ефекти на основі текстових запитів. Ця технологія допоможе контент-мейкерам, розробникам відеоігор, кіно- та телестудіям, адже тепер вони зможуть створювати будь-які необхідні звуки за кілька секунд.

🖼Canva представила низку AI-функцій: Magic Edit та Magic Eraser для редагування фото, Beat Sync для синхронізації відео з музикою та Magic Write для генерації текстового контенту.

🧠Дослідники створили SignLLM — першу багатомовну AI-модель, здатну генерувати жести жестової мови на основі введеного тексту. Пейпер тут.

Цікаве з мережі

Нові технології для боротьби з аудіо-діпфейками

За останній рік «голосові» можливості AI значно зросли. Це має як позитивний вплив < наприклад, генерація синтетичного голосу для людей з вадами мовлення>, так і негативний <шахраї можуть використовувати AI для клонування голосів, видаючи себе за когось іншого, або для створення політичних/військових дезінформаційних фейків>.

Щоб боротися зі зростаючими небезпеками аудіо-діпфейків, Федеральна торгова комісія США запустила конкурс Voice Cloning Challenge. Учасники мали розробити ідеї для запобігання, моніторингу та оцінки зловмисного використання клонування голосу. І ось у квітні агентство оголосило трьох переможців змагання.

Перший інструмент, OriginStory, перевіряє голос у джерелі. «Ми розробили новий тип мікрофона, який підтверджує, що записана мова в момент її створення належить людині», — розповідає Вісар Беріша, професор електротехніки в Університеті штату Арізона, який очолює команду розробників.

Спеціальний мікрофон OriginStory записує акустичні сигнали, як і звичайний мікрофон, але додатково має вбудовані сенсори для виявлення та вимірювання біосигналів, які тіло випромінює під час розмови людини — серцебиття, рухи легень, вібрації голосових зв'язок, рухи губ, щелепи та язика. Таке «підтвердження» прикріплюється до аудіо як вотермарка, що підтверджує, що мова дійсно згенерована живою людиною.

Друге рішення під назвою AI Detect використовує штучний інтелект, щоб ловити штучний інтелект <нарешті AI-рекурсія!>. Запропонована компанією OmniSpeech, яка створює програмне забезпечення для обробки мовлення на основі ШІ, AI Detect вбудовуватиме ML-алгоритми в пристрої з обмеженими обчислювальними потужностями, такі як телефони та навушники, щоб розпізнавати згенеровані AI-голоси в режимі реального часу. «Наша мета — мати якийсь ідентифікатор, що співрозмовник на іншому кінці може бути несправжнім», — каже генеральний директор OmniSpeech Девід Пжигода. Використовувати AI Detect можна як на телефонах, так і вбудовуючи його в гарнітуру.

Останній переможець, DeFake, — це ще один AI-інструмент. DeFake додає невеликий шум до запису людського голосу, ускладнюючи точне клонування. Якщо інший AI-інструмент використовуватиме цей запис як семпл, щоб скопіювати голос, він не зможе зробити це ідеально, а синтезований голос буде відрізнятися. DeFake є прикладом так званого змагального AI — захисної техніки, яка заважає іншим моделям штучного інтелекту працювати належним чином.

Впровадження захисту від аудіо-діпфейків

I AI Detect, і DeFake перебувають на ранніх стадіях досліджень та розробок. AI Detect поки є лише концепцією, тоді як DeFake потребує банального підвищення ефективності. Водночас розробники усвідомлюють недоліки використання штучного інтелекту для подібних цілей, адже їм постійно треба оновлювати датасети та технології, аби не відставати від AI-моделей, що використовується для створення діпфейків. Тобто тут проблема не лише в розробці власної технології, але й у тому, щоб постійно відстежувати, що відбувається в індустрії.

Тим часом OriginStory перебуває на стадії тестування і працює над тим, щоб зробити технологію стійкою до обману. «Ми проводимо перевірку з багатьма різними користувачами, які намагаються обдурити систему, щоб та вважала, що за мікрофоном стоїть людина, коли її там насправді немає. Після цього ми зрозуміємо, наскільки вона надійна. Важливо мати можливість бути впевненим, що людина на іншому кінці — це дійсно людина», — кажуть розробники.

За словами Наумана Давалатабада, постдокторанта групи розмовних мовних систем Лабораторії комп'ютерних наук та штучного інтелекту Массачусетського технологічного інституту, підхід AI Detect виглядає багатообіцяльно: «Для моделі виявлення фальшивого аудіо важливо працювати на пристрої, щоб зберегти конфіденційність, а не надсилати особисті дані на сервер компанії».

Давалатабад розглядає превентивну стратегію DeFake, яку він порівнює з водяними знаками, як гарне рішення для захисту споживачів від шахрайства, коли їхні мовні дані скомпрометовані або перехоплені. «Однак цей підхід залежить від знання всіх вихідних спікерів і вимагає важкої реалізації. Наприклад, просто повторний запис промови з вотермаркою за допомогою іншого мікрофона може повністю або частково усунути ефекти водяного знаку», — додає він. На думку вченого, підхід OriginStory «здається більш надійним, ніж лише програмні вотермарки, оскільки він покладається на біосигнали, які важко відтворити».

Але Давалатабад зазначає, що ще ефективнішою тактикою розв'язання проблеми аудіодіпфейків є чотиристоронній підхід, який поєднує кілька стратегій. Першим кроком, за його словами, є нанесення вотермарок на нові аудіозаписи вже зараз, щоб мати можливість їх відстежувати.

Другий крок — розробка кращих моделей виявлення, які «мають вирішальне значення для захисту поточних даних, більшість з яких не мають водяних знаків».

Третій крок передбачає розгортання моделей виявлення безпосередньо на пристроях для підвищення безпеки та збереження конфіденційності. Для цього мають бути розроблені кращі алгоритми стиснення моделей, щоб мати можливість розгорнути їх на відносно слабких пристроях. Водночас виробники згодом додаватимуть захисні AI-моделі самостійно <в ідеалі>.

І зрештою Давалатабад наголошує на необхідності залучення законодавців для забезпечення захисту споживачів, одночасно просуваючи захисні AI-рішення, де це можливо.

Ще один інструмент, створений компанією Pindrop отримав нагороду за визнання <recognition award>. Рішення виявляє аудіодіпфейки в режимі реального часу, аналізуючи мовлення з інтервалом у 2 секунди та позначаючи ті, які ідентифікуються як потенційно підозрілі.

Дякуємо, що дочитали!

Не забудьте порадити наш дайджест своїм знайомим, яким цікава тема AI/ML. А усі побажання, питання та поради для покращення ньюзлеттеру можна традиційно залишити за посиланням 🙂

AI HOUSE — найбільше та найпотужніше АІ-комʼюніті в Україні. Обмінюємось досвідом і знаннями, здобуваємо навички, реалізовуємо нові технологічні та бізнесові ідеї, розвиваємо індустрію та сприяємо народженню продуктових AI-стартапів. AI HOUSE є частиною екосистеми технологічної компанії Roosh.

Ви отримали цей лист, тому що підписані на
email-розсилку від AI HOUSE. Відписатися від розсилки.

Відправлено через