🤖AI несеться: токеновий мільйонер, революційна Sora та смартфон без застосунків

Архів розсилок
Frame_32_3

AI HOUSE на зв’язку! Повертаємося до вас із добіркою найцікавішого, що відбувалося у світі штучного інтелекту за останні два тижні. Та спершу — кілька апдейтів від нас:

  1. Відкриваємо сезон офлайн-подій мітапом у Києві «From Hype to Reality: Building & Scaling Practical LLM Solutions». Чекаємо всіх AI/ML-спеціалістів/-ок з досвідом 3+ роки. Зануримося в суть створення та масштабування рішень на основі LLM, а також будемо розбирати кейси та багато нетворкати. Взяти участь можна за донат від 500 грн до благодійної організації «Реактивна пошта». Реєстрація відкрита до 28 лютого, тож поспішайте.

  2. Не Києвом єдиним — зустрічайте AI HOUSE у Львові. Запрошуємо на Generative AI Spring School із вивчення генеративного штучного інтелекту в напрямках Computer Vision, NLP та Audio. Учасники школи зможуть детально познайомитися та розібрати поточний стан цих доменів. В кінці школи пройде дводенний хакатон, щоб попрактикувати знання, отримані на лекціях. Деталі та реєстрація.

  3. Тут час згадати останній випуск AI HOUSE Podcast із Олександром Зарічковим — Head of R&D у SQUAD. Разом з ведучим, Романом Кислим, обговорили багато кейсів роботи з Computer Vision та те, через що проходять команди під час Kaggle Competitions. Дивіться, слухайте на всіх подкаст-платформах.

  4. Наостанок поділимося крутою можливістю від CfE Accelerator, а саме акселераційною програмою ideasLab. Запрошують команди студентів, які хочуть втілити свою ідею в життя, перевірити її на життєздатність та перетворити в реальний продукт. Дають знання, простір для роботи, ще й грошові гранти у розмірі до 200 тис. грн на стадії валідації ідеї. Ще є час до 25 лютого, приєднуйтеся.

А тепер — до AI-новин! Розібратися з найгучнішими <а також із GraphRAG-дослідженням від Microsoft> нам допоможе Дмитро Войтех — CTO в S-PRO, AI-експерт.


1. OpenAI знову показала, хто справжній бос цієї качалки

image_1701

OpenAI випустила модель для генерації відео Sora, здатну створювати гіперреалістичні ролики тривалістю до хвилини з текстових промптів або зображень. Ба більше, кожне відео можна скорочувати або робити довшим, додаючи нові сцени. Вже бачимо, як боляче багатьом стартаперам з усього світу, а конкуренти хапаються за голови, адже AI-generated відео такої якості ще ніхто не бачив. Та що там, навіть невдалі генерації виглядають магічно! 

Завдяки тому, що Sora навчалась на абсолютно різних відео (квадратні, вертикальні, високої якості, 144p), то і видавати зрештою вона може різні формати. Причому користувачу навіть не потрібно прописувати детальний промпт. Це за нього зробить GPT, яка перетворює користувацькі підказки у докладні промпти, які йдуть безпосередньо у відеомодель.

Невідомо, на яких даних тренувалася модель, проте AI-дослідник NVIDIA Джим Фан припускає, що в OpenAI використовували синтетичні дані, створені за допомогою Unreal Engine 5. Якщо ж вам цікаво дізнатися ще більше технічних деталей роботи Sora — ловіть пейпер.

Коментар Дмитра: Всі вже, мабуть, намилувалися відео якоїсь абсолютно космічної якості, які генерує нова text2video модель від OpenAI.

Але якість — це тільки те, що видно на поверхні: нейронка такого розміру і навчена на такому скейлі даних дає можливість моделювати згенеровані об’єкти подібно до того, як ми робимо це з 3D-моделями в Unity або в Unreal Engine, але без будь-якої мануальної роботи. Уявіть, як за допомогою такої нейронки можна буде створювати неймовірно складні та круті ігрові асети за лічені секунди. Або ж запустити симуляцію певного малоймовірного і складно відтворюваного процесу, що допоможе краще зрозуміти світ.

До речі, дехто в мережі вважає, що в самому пайплайні Sora інкорпоровано крок, що генерує 3D-модель об'єкта, а вже потім на основі симуляції в ігровому движку модель генерує реалістичне відео. Якщо це так, то це один з найкрутіших останніх аргументів на користь використання синтетичних даних і середовищ, що дозволяють їх створювати. 

Складно повірити, але ми дуже стрімко наближаємося до реальності, в якій ідеї щодо «персоналізованого Нетфліксу», описані в останньому сезоні Чорного Дзеркала, стануть частиною нашого буденного життя. А який фільм ви б згенерували для себе в першу чергу?)


2. Gemini — перший токеновий мільйонер

image_1701_1

Google випустила оновлену модель Gemini 1.5. Головна фішка — контекстне вікно тепер вміщує понад 1 млн токенів. Це поки що рекорд. CEO Google Сундар Пічаї розповів, що зараз дослідники компанії тестують контекстне вікно з 10 млн токенів. Проте під час релізу користувачі Gemini 1.5 зможуть використовувати «лише» 128 тис. токенів, а до мільйона цей показник виросте в міру вдосконалення моделі.

Gemini 1.5 використовує підхід Mixture-of-Experts (MoE) — тобто за різні типи запитів відповідають різні частини моделі замість того, щоб на кожен запит реагувала вся модель. Завдяки цьому Gemini 1.5 працює та навчається швидше, а за якістю роботи виходить на рівень з платною Gemini Ultra, яку зарелізили два тижні тому. 

Крім того, модель може швидко здобувати нові навички на основі інформації, наданої в промпті, не вимагаючи додаткового файнтьюнінгу. 

P.S. Пейпер для тих, кому цікаво дізнатися більше. 

Коментар Дмитра: Нова LLM з серії Gemini від Гугла знову б’є всі рекорди. Рекордний розмір контекстного вікна, при цьому це можуть бути токени різних модальностей <відео, картинки, текст, звук>.

В технічному репорті також наводиться порівняння recall різних моделей, зокрема Claude 2.1, щодо якого нещодавно публікували новини про його проблеми у роботі з великими розмірами контексту. Примітно, що навіть на контексті в 500к у Gemini зберігається recall 100%, у той час, як у Claude 2.1 на 200к цей показник вже починає падати та складає 98%. 

Модель заснована на MoE (Mixture of Experts), що робить її швидшою та енергоефективнішою у порівнянні з Gemini 1.0 Ultra.

Також дуже круто, що завдяки величезному контексту моделі змогли згодувати словник майже вимерлої та непредставленої в інтернеті мови Kalamang, якою розмовляють менш як 200 людей на Землі, й LLM змогла якісно робити переклади на неї. AI, який дійсно єднає людей!


3. Нова модель Meta дивиться відео та вивчає, як влаштований світ

Slice_21

Meta створила AI-модель V-JEPA <Video Joint Embedding Predictive Architecture>, яка вивчає взаємодії у фізичному світі, аналізуючи відео замість тексту. На думку Chief AI Scientist в Meta Яна Лекуна, такий підхід допоможе моделям навчатися швидше та ефективніше. Тому V-JEPA навчалась, обробляючи нерозмічені відео і «вгадуючи», що відбувається у певній частині екрана протягом кількох секунд, коли вона була затемнена.

V-JEPA не є генеративною моделлю, натомість розвиваючи внутрішню концептуальну модель світу. Дослідники Meta кажуть, що V-JEPA після попереднього навчання з використанням відеомаскування «чудово виявляє і розуміє високодеталізовану взаємодію між об'єктами». За задумом, це допоможе як створювати нові продукти у сфері доповненої реальності, так і розробити новий спосіб навчання AI-моделей. Далі Meta планує додати ще й аудіо, давши моделі ще один вимір для навчання. 

Традиційно: пейпер — тут, Github — тут

Коментар Дмитра: Майже у той же проміжок часу що і публікація про Sora, у Meta викотили нову модель для Video Understanding, яку вони позиціюють, як одну з перших нейромереж, що ефективно моделює залежності фізичного світу, навчаючись на нерозмічених відео.

Ця модель є логічним продовженням їхнього попереднього ресьорчу I-JEPA, результатом якого було отримання інформативних ембедингів для зображень. Важливо зазначити, що JEPA- моделі не є генеративними — вони не генерують зображення чи відео, а відтворюють максимально релевантну репрезентацію у латентному просторі. А вже на основі цих репрезентацій можна навчати додаткові моделі для різноманітних downstream-задач на кшталт класифікації, розпізнавання дій, кепшенінгу відео — у статті за цими напрямами демонструються доволі хороші результати. 

Модель навчалася в self-supervised режимі, в якому ціллю є відтворення замаскованих частин кадрів. Цікаво, що пропонована архітектура доволі швидко й ефективно файнт’юниться через додаткові блоки мережі (так звані «attentive probes») — саме вони потребують донавчання, в той час як основний бекбоун мережі можна лишати замороженим.

Ян Лекун вже встиг прокоментувати Sora від OpenAI в контексті релізу V-JEPA, зазначивши, що модель, головною задачею якої є генерація пікселів, не дозволить створити репрезентативну модель світу. Таким чином він вкотре наголосив на важливості саме ембедингів, як найбільш інформативного представлення даних. 

Буде дуже цікаво спостерігати за розвитком цих двох моделей, і хто в результаті виявиться більш правим. На мою думку, якісні векторні репрезентації лежать в основі більшості успішних моделей, як генеративних, так і дискримінативних. Тому з нетерпінням чекаємо на можливість проаналізувати архітектуру Sora на предмет наявності подібних дескрипторів.


Що ще нового у світі AI:

4_1

🤖Вже традиційна пачка новин від OpenAI:

  • Компанія розробляє два AI-агенти для автоматизації складних завдань: один з них керуватиме девайсами та зможе, наприклад, перемикатися між програмами, передавати дані, заповнювати форми; другий працюватиме в інтернеті — збиратиме дані, бронюватиме квитки тощо. 
  • OpenAI працює над власним AI-пошуковиком аля Perplexity, який працюватиме на базі Bing. Поки незрозуміло, чи буде цей продукт функціонувати незалежно від ChatGPT чи стане частиною чат-бота, розширивши його можливості. Так чи інакше, а це точно виклик Google, адже саме реклама в пошуковику приносить компанії величезні прибутки. 
  • Нова функція ChatGPT Memory допоможе чат-боту запам’ятовувати різні деталі під час вашого спілкування. Ці знання будуть переноситися між чатами та кастомними GPTs + усе, що чат-бот «запам’ятає» можна переглядати, доповнювати та видаляти вручну. Поки що функція доступна невеликій кількості користувачів, чекаємо на повноцінний реліз. 
  • З OpenAI пішов один зі співзасновників, Андрей Карпати. За словами дослідника, це сталося не через якісь проблеми в компанії, а тому, що він хоче більше часу приділяти іншим своїм проєктам.
  • Тренувальний датасет для GPT-4 та GPT-4 Turbo оновився до грудня 2023-го

💰Багато пишуть про те, що Сем Альтман хоче залучити $7 трлн, з можливим фінансуванням з Близького Сходу, для різкого збільшення світових потужностей з виробництва напівпровідників. Виявилося, що насправді це — загальна сума інвестицій у цю сферу, яка, на думку Альтмана, необхідна, щоб подолати всі її проблеми.  Засновник OpenAI дійсно шукає гроші в Азії та на Близькому Сході, і тепер він намагається отримати відповідний дозвіл Вашингтона через безпекові занепокоєння американської влади. 

⚡️Багато захоплень у мережі отримала AI-модель Groq <ні, не Grok Ілона Маска>. Компанія Groq Inc. створила і використовує спеціальні мовні процесори <language processing units, LPUs> замість традиційних GPUs, що дозволяє моделі генерувати приблизно 500 токенів на секунду, на відміну від 30-50 в GPT 3.5. Порівняння швидкості роботи можна побачити в цьому демо. Цікавий факт про компанію — у листопаді вони написали компанії Ілона Маска X листа з вимогою припинити діяльність через назву чат-бота Grok. 

💎Google випустила оупенсорсні моделі Gemma на 2- і 7 млрд параметрів. Компанія стверджує, що вони працюють краще за деякі моделі більшого розміру <наприклад, Llama-2> за деякими бенчмарками та здатні запускатися безпосередньо на ноутбуках або ПК.

📱Deutsche Telekom планує випустити AI-смартфон без застосунків, які замінить «генеративний інтерфейс». В основі революційного дизайну — AI-асистент, який зможе виконувати творчі завдання, займатися шопінгом/таксі/подорожами, за допомогою голосових або текстових команд. Звучить, як справжній виклик сучасним UI-стандартам. Презентація — 26 лютого. 

📝Adobe представив AI-асистента в програмі Acrobat, який може робити самері, відповідати на питання по тексту в документах і давати рекомендації по контенту. Поки що AI-асистент доступний в бета-версії всім, хто використовує платні версії Acrobat. Пейпери, начувайтесь 😈

🛒Reddit підписав угоду на $60 млн на рік, за якою Google отримує доступ до всього користувацького контенту на платформі для навчання своїх AI-моделей. В ком’юніті це сприйняли негативно, адже компанія фактично монетизує створений ними безкоштовний контент <чуємо відлуння судових протистоянь AI та художників>. Угода може стати прецедентом для майбутньої співпраці соцмереж та AI-компаній, адже про проблему доступу до високоякісних навчальних даних говорять вже давно. 

🌭Stability AI випустила нову модель Stable Cascade, засновану на архітектурі Würstchen. Модель генерує якісніші зображення та видає результат набагато швидше, ніж її попередник Stable Diffusion <ще й непогано працює з текстом на картинках>. Лінк на Github

🏟Нова LLM від Mistral може кинути виклик GPT-4 — прототип Mistral Next вже можна спробувати на арені чат-ботів. Це буде найбільша модель французької команди — і вона вже збирає позитивні відгуки від тестерів. 

🍏Дослідники Apple випустили Keyframer, AI-інструмент, який анімує зображення за допомогою тексту. Keyframer може генерувати CSS-код анімації з текстових підказок і дозволяє не тільки створювати, але й редагувати анімації, міняючи код або додаючи підказки. Крім того, компанія зараз розробляє власний тул для написання коду по типу GitHub Copilot від Microsoft. 

🧠Дослідники Amazon випустили найбільшу AI-модель з існуючих — BASE TTS. Метою цієї роботи було вивчити на якому етапі LLM-ки стають набагато якіснішими та універсальними <поки що ми знаємо лише про сам факт того, що в якийсь момент моделі починають працювати краще і виконувати завдання, яким їх не навчали>. У дослідженні вивчалися різні розміри моделей (980M, 400M і 150M параметрів) — значний приріст можливостей виявився у моделі середнього розміру. Пейпер про цю роботу можна знайти тут

💻Nvidia випустила чат-бот Chat with RTX, який можна запустити на власному ПК без доступу в інтернет. Технічні вимоги: відеокарта RTX 30-/40- серії з принаймні 8 ГБ відеопам'яті. Журналіст The Verge протестував модель — каже, що вона трохи сирувата <наприклад, наразі не запам’ятовує контекст>. Але вже може бути корисною для всіх, кому потрібно аналізувати документи. 

♟В Google DeepMind розробили AI-модель, яка грає в шахи на рівні гросмейстера <Elo-рейтинг — 2895>. Відмінність цієї моделі в тому, що вона використовує архітектуру мовної моделі на 270 млн параметрів замість традиційних складних пошукових алгоритмів, на яких зазвичай працюють шахові боти. На думку дослідників, їхня робота показує, що трансформери — це не просто «стохастичні папуги», а моделі, які можна адаптувати для багатьох сфер. Пейпер тут

💡Інженери з Пенсильванського університету створили нові чіпи, що використовують світлові хвилі замість електрики. Обіцяють більшу швидкість, менші витрати та посилену конфіденційність.


GraphRAG by Microsoft research: графи як майбутнє RAG генерації <розбір Дмитра>

image_1739_1

Microsoft Research діляться інсайтами про їхнє дослідження з використання графів, що генеруються LLM-ками у RAG-підході.

У класичній RAG-системі контекстуалізація LLM-промпту фактами з зовнішніх джерел <бази даних, документів тощо> робиться через KNN-пошук по векторному індексу. Цей підхід є відносно простим і надійним, але має недостатньо високу якість, а також підвищені ризики щодо галюцинацій для узагальнюючих запитів.

Ідея ж графового RAG полягає у наповненні промпту зовнішньою інформацією за допомогою пошуку по графу. Такий граф можна будувати як вручну, так і автоматично за допомогою мовної моделі. Він містить у собі всі сутності, що згадуються в цих джерелах, як вузли, а також зв’язки між ними. 

Сам підхід щодо графового RAG не є чимось принципово новим і, мабуть, багато хто з вас вже пробував модуль Knowledge Graph Memory з Langchain, що реалізовує декілька промптів для тієї ж LLM-ки, які й мають на меті генерувати триплети у вигляді <subject, object, relation> для графу на основі текстів документів. Але якість часто залишає бажати кращого — генеровані графи мають дуже велику надмірність (redundancy) і вимагають додаткової обробки для регуляризації їхньої структури. Microsoft у межах цього дослідження ставить собі за мету адресувати й цю проблему.

У пості і супровідних матеріалах Microsoft фокусуються на обґрунтуванні, чому класичні RAG-системи побудовані на KNN-пошуку погано працюють на запитах, що вимагають поєднання багатьох фактів з різних частин документу. А також на запитах щодо узагальненого змісту великих документів <до речі, проводячи евалюейшн на датасеті VIINA, в якому є багато текстів новин пов’язаних з Україною>.

Далі наводяться приклади, чому GraphRAG справляється з цим набагато краще, а також дається високорівневий опис процесу побудови графу, що складається з двох етапів:

1) генерація вузлів і зв’язків графу;

2) ієрархічна кластеризація, що дозволяє рухатися по графу від загальних концепцій до глибших і конкретних понять.

Дане дослідження є дуже важливим для побудови якісніших і точних Q&A-систем на основі великих баз знань, з чим у класичного RAG-підходу є певні проблеми. Але також дехто в ком’юніті вважає, що «золоту середину» для оптимального RAG варто шукати в поєднанні двох підходів: фактологічності та формалізованості графової структури, а також семантичних якостей векторного пошуку.

На жаль, оскільки наразі дослідження в процесі, ще не було опубліковано ані повноцінних статей, ані вихідного коду. Але очікуємо, що даний проєкт стане ще одним великим внеском Microsoft в AI open-source комьюніті та дозволить значно підвищити потенціал застосування RAG для складних кейсів, які нині не можуть бути повноцінно адресовані поточними підходами.


umw6hbo9b1h4yx1ebbg5

Дякуємо, що дочитали! 

Не забудьте порадити наш дайджест своїм знайомим, яким цікава тема AI/ML. А усі побажання, питання та поради для покращення ньюзлеттеру можна традиційно залишити за посиланням 🙂

AI HOUSE — найбільше та найпотужніше АІ-комʼюніті в Україні. Обмінюємось досвідом і знаннями, здобуваємо навички, реалізовуємо нові технологічні та бізнесові ідеї, розвиваємо індустрію та сприяємо народженню продуктових AI-стартапів. AI HOUSE є частиною екосистеми технологічної компанії Roosh.

Ви отримали цей лист, тому що підписані на
email-розсилку від AI HOUSE. Відписатися від розсилки.

Відправлено через

SendPulse