Це AI HOUSE з добіркою найцікавішого, що відбулося у світі штучного інтелекту за останні два тижні. Своїх апдейтів маємо зовсім трішки, ділимося:
Нещодавно вийшов новий випуск AI HOUSE Podcast. Наш незмінний ведучий Роман Кислий разом із Єгором Смоляковим, [CEO UA-LAWYER] поспілкувались про синтез і розпізнавання української мови, запис аудіо для датасету та те, як розпізнавати мови, для яких замало даних. Також обговорили основні проблеми Whisper, нюанси роботи з LLM для юристів, мовні моделі від TikTok та X [Twitter] і датасет з кримськотатарської мови від Respeecher. Дивіться та слухайте випуск на всіх подкаст-платформах 🔥 - Поки ми готуємо нові події для вас, радимо підписатися на наш Telegram-канал, щоб не пропускати головні апдейти від нас та нашого ком’юніті, а також слідкувати за найгарячішими подіями світу ШІ щодня.
А тепер — до AI-новин! Сьогодні розбиратися з наймасштабнішими з них нам допоможе Олександр Косован — Head of Data Science в ExpoPlatform та ментор AI HOUSE CAMP 2023. |
|
1. Оупенсорс-революція на підході? |
|
Databricks випустила DBRX, найпотужнішу оупенсорсну LLM-ку з усіх, що є зараз. Вона краща за Llama 2 70B, Mixtral-8x7B, Grok 1 і навіть «закриту» безоплатну GPT-3.5. І демонструє кращі навички в розумінні мови, програмуванні, математиці та логіці. Модель розробила компанія Mosaic AI, яку Databrick викупила, а потім оптимізувала модель, підвищивши її ефективність за допомогою архітектури mixture-of-experts (MoE) з близько 136 мільярдами параметрів. Крім того, DBRX може повністю поміститися на Macbook Pro, що відкриває шлях до LLM-powered функцій на комп’ютерах. Розробники кажуть, що на DBRX було витрачено всього $10 млн, трохи понад два місяці роботи і 3100 відеокарт Nvidia H100, а цим релізом вони кидають виклик закритим моделям. Потестити модель можна тут. |
|
Коментар Олександра: Перші враження викликають ВАУ-ефект. Databricks дійсно вразила своєю роботою над оптимізацією, опція запуску на CPU виглядає привабливо. Також DBRX гарно враховує прописані інструкції, що не часто зустрінеш у відкритих моделях. Хоч поверхневе тестування мене задовольнило, але все ще залишаються невирішені обмеження, такі як галюцинації. Загалом я впевнений, що DBRX здатна суттєво вплинути на індустрію та дослідження у цій сфері, оскільки ми маємо розкриті можливості для проведення різноманітних нових експериментів і впроваджень. |
|
2. Одна архітектура — добре, а дві — краще |
|
Компанія AI21 Labs представила Jamba. Її фішка — контекстне вікно у 256к токенів, поєднання архітектур Structured State Space (SSM) і традиційних трансформерів. Так Jamba стала першою у світі моделлю, побудованою на архітектурі Mamba, що здатна розв’язувати реальні задачі. Розробники пояснюють, що вирішили створити такий гібрид, оскільки ефективність роботи трансформерних моделей падає зі збільшенням контексту; причому чим більше вхідних даних, тим важче та дорожче їх обробляти. Mamba розроблена для розв’язання цих проблем, але ця архітектура погано вловлює весь контекст, коли інформації дуже багато. Так на світ і з’явилась архітектура Jamba — Joint Attention and Mamba, що складається з кількох «шарів» — Трансформерів, Mamba та MoE з 12 млрд активних параметрів і 52 млрд загалом. Це єдина модель у своїй «ваговій категорії», що здатна обробляти контекст у 140 тис. токенів на одному графічному процесорі. Розробники впевнені, що це — лише початок, і подальша оптимізація цього підходу дозволить отримати ще кращі результати. Детальніше роздивитися модель можна на HuggingFace. |
|
Коментар Олександра: Довжина контекстного вікна залишається актуальним питанням, і багато компаній шукають власні способи розв’язання цієї проблеми. Ідея, яку втілили AI21 Labs, мені особливо сподобалася. Цікаво, як збільшення розміру вікна контексту вплине на швидкість моделі, а також, як модель справиться з багатошумовою контекстною інформацією. Особисто я в очікуванні реакції ринку і буду сподіватися, що проблема наблизиться до свого вирішення.
|
|
3. Автоматична еволюція LLM |
|
Японський стартап Sakana AI створив три нові японськомовні AI-моделі — LLM-ку EvoLLM-JP, що вміє генерувати якісний текст японською та знається на математиці; генератор зображень EvoSDXL-JP і візуально-мовну модель EvoVLM-JP <GitHub і HuggingFace на місці>. Але нам цікаві не стільки моделі, скільки те, як їх створили. Так японці розробили алгоритм Еволюційного об’єднання моделей <Evolutionary Model Merge>, «схрещуючи» сотні різнопланових моделей, найкращі з яких ставали основою для їхніх фінальних продуктів. І все це автоматично — якщо спростити, можна сказати, що Sakana створила AI, який допомагає відбирати та «схрещувати» моделі, щоб на виході отримати найкращий результат. У своїй статті команда пояснює, що такий підхід дозволяє створювати нові моделі без перенавчання та є більш економним. А їхній інноваційний алгоритм, на основі якого все це працює, дозволяє шукати оптимальні комбінації моделей та комбінувати їх. Наприклад, їхня LLM-ка на 7 млрд параметрів зрештою перевершила інші найсучасніші японські моделі на 70 млрд параметрів за багатьма бенчмарками. |
|
Коментар Олександра: Розвиток моделей для конкретних мов є важливим кроком у розвитку сфери ШІ. Тому досягнення Sakana AI дійсно вражає. Вони не лише адаптували наявні моделі під японську мову, а й розробили зовсім нове рішення. Еволюційна оптимізація та об'єднання моделей звучать захопливо — схоже на щось, що зазвичай можна було побачити лише у науково-фантастичних фільмах. Цікаво, як цей підхід буде розвиватися в майбутньому. |
|
4. Багато оновлень від OpenAI |
|
- Різні креативники та художники отримали доступ до Sora. Вийшло дуже гарно. Професіонали відзначають, що інструмент допомагає втілити у життя раніше недосяжні ідеї — коротше хайпують <ось тут можна почитати, що і як саме вони робили>. Паралельно OpenAI веде переговори з голлівудськими кіностудіями та агенціями щодо використання їхньої технології у майбутньому. Деякі актори та режисери вже отримали доступ до Sora та тестують її. Цікаво, що з того вийде.
- Voice Engine — новий AI-інструмент компанії для клонування голосу, якому достатньо 15-секундного уривка, щоб скопіювати акцент та емоційне забарвлення спікера, причому на різні мови. Саме ці голоси ви можете чути, коли озвучуєте відповідь у ChatGPT. Доступ є в обмеженої кількості користувачів, оскільки в OpenAI розуміють, що Voice Engine, як і Sora, буде справжнім подарунком для пропагандистів. Також у компанії вивчають потенційний вплив технології на роботу акторів озвучки.
- ChatGPT нарешті навчився редагувати зображення. Все просто — виділяєте, що ви хочете змінити та пишете, як саме.
- Запустилась програма оплати за використання кастомних GPT, створених користувачами. Поки що це пілот, обмежений обраною групою розробників у США — подивимось, як воно піде далі.
- ChatGPT залишатиме посилання, звідки він брав інформацію для генерації відповіді, якщо для цього використовувався інтернет — але лише для платних підписників.
- Тепер ChatGPT можна використовувати без реєстрації. Доволі буденна новина, яка насправді може бути початковою точкою відліку повноцінного протистояння пошуковика Google та OpenAI, адже тепер доступ до чат-бота стає максимально простим для будь-якого користувача.
|
|
Коментар Олександра: Куди ж без OpenAI. Від моменту анонсу Sora компанія залишається у центрі уваги, а всі представлені демонстрації набули широкого розголосу. Цікаво, чи справді OpenAI має серйозні побоювання щодо можливого негативного впливу Sora та Voice Engine на суспільство, чи все ж інструменти не контрольовані настільки, щоб їх випускати у світ. Серед всіх оголошених удосконалень ChatGPT мене особливо зацікавило обіцянка про те, що чат-бот буде надавати посилання на джерело, з якого він взяв інформацію для генерації відповіді. Це смілива заява, і я з нетерпінням чекаю, щоб перевірити це на практиці. |
|
🎯Україна використовує дрони з AI <якщо бути точнішими, то йдеться про машинний зір> для ударів по російським нафтопереробним заводам. Штучний інтелект використовується для навігації <тобто дрони не потребують зв’язку з супутниками>, ідентифікації цілі та уникнення перешкод, що створюють російські засоби РЕБ, завдяки чому безпілотники б’ють з точністю до метрів. Попри те, що такий рівень автономності дронів досягнуто вперше, експерти запевняють, що це — лише початок розвитку подібних технологій. 🖥OpenAI та Microsoft хочуть створити величезний дата-центр вартістю понад $115 млрд, де розміститься AI-суперкомп’ютер Stargate, який працюватиме на мільйонах спеціалізованих мікрочіпах. У компаніях вважають цей проєкт критично необхідним для досягнення AGI. Запуск суперкомп’ютера попередньо заплановано на 2028 рік, а у 2026 має запрацювати менший суперкомп’ютер, розроблений спеціально для OpenAI. 🧠Дослідники зі Стенфорду розробили Quiet-STaR — новий метод навчання, який дозволяє AI-моделям генерувати внутрішній монолог, тобто «думати» перед відповіддю. Протестувавши метод на Mistral 7B, дослідники виявили покращення майже у два рази в тестах на математику та логічне мислення. ⚙️xAI випустив Grok 1.5, який краще думає, вміє в математику і програмування та має контекстне вікно у 128К токенів. Маск вже розганяє хайп і каже про роботу над Grok 2, який «перевершить всі сучасні AI за всіма метриками». 🔝Claude 3 обійшла GPT-4 на арені чат-ботів; топові моделі від OpenAI майже рік незмінно очолювали цей рейтинг. Тим часом Amazon доінвестував $2,75 млрд в Anthropic, довівши загальну суму до $4 млрд. Це найбільша в історії зовнішня інвестиція компанії. 🤝Apple веде переговори з Alphabet, OpenAI та Anthropic щодо інтеграції генеративного AI в iOS — розглядають навіть залучення кількох партнерів. Наприклад, в Китаї компанія вже заручилась підтримкою місцевого технологічного гіганта Baidu. Офіційне оголошення фінального рішення щодо інших компаній та AI-функцій, які з’являться в айфонах після «найбільшого оновлення» iOS очікується 10 червня на конференції WWDC 2024. 🍏Також в Apple стверджують, що їхня нова AI-модель ReALM працює краще за GPT-4 <пейпер тут>. ReALM не тільки розуміє текстові промпти, але й «бачить» та «розуміє» те, що відбувається на екрані девайса. Потенційно це покращить користувацький досвід. Наприклад, можна буде попросити Siri відкрити певний застосунок або зателефонувати на якийсь номер, що треба знайти в інтернеті. 🤖Ubisoft представила прототип проєкту NEO AI NPC, мета якого — зробити ігрових ботів більш «живими», підвищити реалістичність світу та занурення гравців. NEO NPCs можуть відповідати на репліки та запитання людини + розпізнавати емоції та адаптувати під них свою поведінку. Над подібним концептом працюють і у Nvidia — компанія стверджує, що NPC під управлінням AI роблять кожне проходження гри «унікальним», а те, як з ними взаємодіє гравець, приводитиме до абсолютно різних відповідей і результатів. 🖼В MIT розробили фреймворк DMD <Distribution Matching Distillation>, який прискорює процес генерації зображень моделями на кшталт DALL-E чи Stable Diffusion в 30 разів, зберігаючи або навіть покращуючи їхню якість. Цей підхід спрощує багатокроковий процес генерації картинок до одного кроку, використовуючи модель «вчитель-студент», щоб навчати комп'ютерну модель наслідувати поведінку складніших моделей. Пейпер тут. 💻У браузері Opera тепер доступні понад 150 AI-моделей, серед яких Mixtral, LLama, Gemma та інші. Така інтеграція значно прискорює взаємодію з чат-ботами та забезпечує конфіденційність, адже дані не відправляються на сервери компаній, а відбуваються «безпосередньо на комп’ютері». 💰Група великих технологічних компаній серед яких Google, Samsung, Intel, Qualcomm та інші об’єднуються, щоб кинути виклик Nvidia на ринку AI-чіпів. Група під назвою The Unified Acceleration Foundation <UXL> розроблятиме ПЗ з відкритим вихідним кодом, щоб «відв’язати» AI-розробників від Nvidia та дати можливість їхнім програмам працювати на будь-якій техніці з будь-якими чіпами. 🍻Штучний інтелект тепер допомагає покращувати смак пива. Бельгійські дослідники проаналізували хімічні властивості та ароматичні сполуки 250 видів пива, а також зібрали понад 180 тис. відгуків на одній з онлайн-платформ. На основі цих даних вчені створили AI-моделі, які передбачають смак пива та вірогідність того, що воно сподобається споживачам. Cheers! |
|
Музичний ChatGPT або як працює Suno? |
|
Про цю компанію ми вже кілька разів згадували у своїх ньюзлетерах — тепер прийшов час познайомитися з ними ближче. Так, за останній рік генеративний AI прокачався у написанні текстів, коду, генерації зображень, голосу, відео <привіт, Sora>. Проте ще один вид контенту — музика — поки відстає. Suno AI працює над розв’язанням цієї проблеми, адже їхній AI-інструмент <отакий от каламбур> генерує неймовірні треки та пісні, хоча поки що може плутатись у стилях. Нещодавно Suno тримала оновлення до V3 — журналісти американського журналу Rolling Stone протестували її і розказали про свої враження та місію компанії у своєму новому матеріалі. Журналіст створив пісню у стилі блюз Soul of the Machine і називає це «найпотужнішим і найтривожнішим» творінням AI, з яким він стикався у будь-якому медіумі. Suno всього два роки. Співзасновники стартапу Майкі Шульман, Кінан Фрайберг, Георг Куцко та Мартін Камачо — чотири ML-ника, які до 2022 року працювали разом у компанії Kensho Technologies, яка пропонувала бізнес-рішення за допомогою AI. Всі четверо працювали над технологією транскрипції телефонних дзвінків, де і побачили перспективу застосування AI в аудіо; тим паче що Шульман і Фрайберг вже певний час займалися музикою та часто разом грали на джем-сесіях. Спочатку команда думала створили слуховий апарат або шукати несправності у техніці за допомогою аудіоаналізу. Натомість їхнім першим продуктом стала програма для перетворення тексту на мову під назвою Bark. Після опитування перших користувачів Bark, стало зрозуміло, що людям цікавий напрям генератора музики — так на світ з’явився стартап Suno AI, де зараз працює багато музикантів. Технологія Suno базується на тому ж підході, що й LLM, розбиваючи музику на дискретні елементи або токени, навчаючись на великих масивах даних, щоб зрозуміти нюанси музичних композицій, а потім збирати їх за певним запитом. Проте працювати з аудіо набагато важче, ніж з мовою, через неперервну природу музики, яка за секунду може генерувати десятки тисяч токенів. Шульман детально не пояснює, що саме вони зробили, щоб створити Suno, але зазначає, що для цього знадобилося «багато евристики, трюків і моделей». Водночас те, як зараз працює Suno — далеко не ліміт; в майбутньому розробники хочуть відійти від моделі «текст-музика» і додавати більш релевантні вхідні дані на кшталт співу користувачів, з якого AI-інструмент буде робити повноцінні треки. |
|
Зараз OpenAI, Midjourney та інші AI-компанії стикаються з численними судовими позовами через використання матеріалів, захищених авторським правом, для навчання своїх моделей. Можливо тому засновники Suno також не горять ділитися своїм датасетом — проте зазначають, що їхня модель вчиться не лише на музиці, а й на записах мовлення. Такі «голосові» семпли допомагають AI вловити різні складні характеристики людського голосу. Один із ранніх інвесторів зізнається, що очікує на можливі судові позови від музичних лейблів та видавців, але називає їх «ризиком, який ми повинні були взяти на себе». За його словами, Suno — це одночасно потужний і простий у використанні музичний інструмент, який може зробити музику доступною для всіх; так само як телефони з камерами та Instagram демократизували фотографію. Також у Suno уточнюють, що співпрацюють з найбільшими лейблами, а їхній інструмент не дозволяє копіювати стилі конкретних виконавців і не використовує їхні голоси. Що стосується реакції всередині музичної індустрії, то музиканти та продюсери вже давно висловлювали занепокоєння щодо потенційного впливу AI на бізнес. А днями понад 200 музикантів, серед яких Білі Айліш, Нікі Мінаж, Стіві Вандер, підписали відкритий лист проти використання штучного інтелекту в музиці. Водночас у Suno парирують метафорою, що люди продовжують читати навіть попри те, що і самі вміють писати. «Якщо люди будуть ще більше захоплюватись музикою, більше зосереджуватись на творчості, розвиватимуть свої смаки, це очевидно плюс для всіх митців… Ми не намагаємося їх замінити», — каже Шульман. Водночас Suno дійсно може сильно вплинути на музичну індустрію через відсутність регулювання AI-контенту — якщо не на Білі Айліш, то на життя тих, хто пише музику для реклами чи різноманітних шоу. AI дозволить багатьом рекламним агентствам, кіностудіям й іншим гравцям ринку не купувати ліцензії, а генерувати собі музику за 10 доларів на місяць. Або користувачі Suno можуть заполонити стрімінгові сервіси своїми робо-творіннями. Головним конкурентом в компанії зараз вважають Dream Track від Google, який має схожий інтерфейс і домовляється з музикантами для використання їхніх голосів. Проте доступ до інструменту зараз має лише невелика тестова база користувачів, а музика, яку генерує Dream Track звучать відверто не так вражаюче. Також днями Stability AI випустила Stable Audio 2.0 <спробувати можна тут>, натреновану на ліцензованому музичному датасеті AudioSparx. Модель може генерувати треки тривалістю до трьох хвилин як за текстовими промптами, так і в форматі audio-to-audio — користувачі можуть завантажувати на платформу власні семпли та редагувати їх за допомогою підказок. |
|
|
---|
|
Дякуємо, що дочитали! Не забудьте порадити наш дайджест своїм знайомим, яким цікава тема AI/ML. А усі побажання, питання та поради для покращення ньюзлеттеру можна традиційно залишити за посиланням 🙂 |
|
|
---|
|
AI HOUSE — найбільше та найпотужніше АІ-комʼюніті в Україні. Обмінюємось досвідом і знаннями, здобуваємо навички, реалізовуємо нові технологічні та бізнесові ідеї, розвиваємо індустрію та сприяємо народженню продуктових AI-стартапів. AI HOUSE є частиною екосистеми технологічної компанії Roosh. |
|
|
---|
|
|
|