🤖AI несеться: Альтман у Фрідмана, Devin замість розробників, AI-агенти грають в ігри

На зв’язку AI HOUSE! Починаємо з кількох наших апдейтів, а далі все як любимо — важливі новини та цікаві історії зі світу AI.

28 березня зустрічаємося у Києві на офлайн Computer Vision Meetup. Плануємо технічні доповіді від крутих спікерів, обмін знаннями та нетворкінг, as usual. Цього разу зосередимося на CV в proctoring та автономних системах, масштабуванні, оптимізації, питанні етики та мінімізації упередженості CV-алгоритмів. Приєднатися можна за донат від 500 грн, після підтвердження участі. Реєстрація триватиме до 27/03, тож let’s meet up!
Місце AI HOUSE Podcast порожнім не буває, тож поки готуємо для вас нові епізоди — пропонуємо переглянути останні: про те, як бути СТО в АІ-проєктах з Денисом Поповим [СТО & Co-Founder Noty.ai], або про Kaggle та Computer Vision з Олександром Зарічковим [Head of R&D у SQUAD]. Дивіться на нашому YouTube-каналі та слухайте на подкаст-платформах 🔥

А тепер — до AI-новин! Розібратися з найгучнішими нам допоможе Ілля Лубенець — CTO в SpicyAI.

1. Зустрічайте — Devin, перший AI-розробник

Компанія Cognition AI представила Devin, автономного AI-агента, що може самостійно писати програмні проєкти з нуля на основі текстових підказок. Він може планувати та виконувати складні завдання, писати код, ходити в інтернет, навчатися, збирати інформацію, фіксити баги тощо. Причому під час виконання завдання бот буде описувати та показувати, що саме він робить — за потреби людина може давати правки, і Devin все пофіксить.

Devin значно попереду за інші AI-інструменти для розробників. Він вирішує 13,86% проблем за бенчмарком SWE-bench, який оцінює ефективність LLM у розв’язанні реальних задач з програмування. Найкращий попередній показник у 4,8% набрав Claude 2, якому попередньо надавали додаткові файли, що допомагали йому виконувати завдання. Натомість Devin справлявся самостійно. Ба більше, у Cognition показали, як AI-агент за лічені хвилини виконує роботу на Upwork.

Команда пообіцяла згодом опублікувати технічні деталі Devin. Проте головне питання, яке виникає вже зараз — а чи готові ми до такого майбутнього?

Коментар Іллі: Демо виглядає круто, але є декілька питань:

Незрозуміло, як швидко насправді він працює. Я знайшов декілька лайв-демо, але там були дуже прості задачі — і навіть вони займали значний час.

Ціна. Незрозуміло, скільки це все задоволення буде коштувати. Схоже на дуже дороге демо <як це було з SORA>, яке не має фінансового обґрунтування. І це не значить, що цього робити не треба — просто знайте, що роботу воно у вас не відбере.

Як він розв’язує складніші задачі, чи взагалі вирішує хоча б частину?

До речі, якщо ви як і я, ще не отримали доступу до Devin, то є Amazon Code Catalyst і в його платному тарифі є фічі AI-асистенту; він значно гірше, ніж відео з Devin, але ви можете вже зараз спробувати його на своєму проєкті. 100%, що Copilot майбутнього буде саме таким.

Якщо відійти від задач розробки, то розв'язання задач планування — це дуже важливий крок для побудови AGI, який всі або хочуть, або бояться отримати.

2. Apple і AI — як завершиться ця драма?

Загальноприйнятою є думка, що Apple безнадійно відстає від OpenAI, Microsoft, Google та інших конкурентів у розробці та імплементації AI у свої продукти. Цього року, здається, це зміниться — але не так, як думала більшість.

По-перше, Apple і Google ведуть переговори щодо імплементації Gemini в iPhone. А ще раніше подібні перемовини велись і з OpenAI. Схоже, це означає, що розробка власної LLM Ajax, на базі якої мав би працювати умовний Apple GPT, не була надто успішною — в компанії начебто визнають, що Gemini та інші інструменти працюють краще.

По-друге, дослідники Apple опублікували пейпер, у якому демонструють новий підхід до створення більш інтелектуальних і гнучких систем штучного інтелекту та розповідають про MM1 — сімейство мультимодальних AI-моделей, які можуть обробляти та генерувати текст, зображення й інші типи даних. За своїми показниками найбільша MM1 на 30 млрд параметрів конкурує з найсучаснішими мультимодальними моделями, як-от GPT-4V та Gemini Pro.

У роботі детально описуються архітектури моделей та типи даних, з якими експериментували дослідники. Це — дуже нетиповий підхід для Apple, яка зазвичай не любить ділитися своїми напрацюваннями. Та й інші AI-лабораторії на кшталт OpenAI та Google не дуже активно діляться своїми дослідженнями, і навіть у пейперах часто не розкривають усієї інформації <так, ми говоримо про вас, пані Мураті>.

Існують припущення, що компанія стає відкритішою <принаймні щодо напрацювань у сфері ШІ> не просто так, а для залучення найкращих AI-дослідників, яким зручніше працювати у відкритих середовищах, де заведено ділитись експертизою. Протилежний підхід, який практикують в OpenAI та Google, і за яким в Apple, схоже, вирішили не йти — мільйонні зарплати та виплати для талантів.

По-третє, Apple купила ще один AI-стартап — DarwinAI, залучивши десятки співробітників компанії до свого AI-підрозділу. Підготовка до «революційного» оновлення iOS 18 йде повним ходом, адже саме Apple скупає найбільшу кількість AI-компаній, починаючи з 2017 року. Чекаємо на крутий апдейт Siri?

Коментар Іллі: Так чи інакше Apple збирає дуже сильну команду, яка буде працювати над штучним інтелектом для своїх операційних систем. Крім згаданих покупок і переговорів, вони наймають в команду сильних NLP-інженерів, а також перевели в цей напрям понад 1000 людей, які до цього займалися селф-драйвінгом.

Насправді тільки Google та Apple мають можливість зробити повноцінного AI-асистента, бо мають необхідну для цього інфраструктуру та екосистему. Але якщо в Google я вже особисто не вірю, то в Apple є всі шанси. Нагадаю, що в iOS вже є Shortcuts які дають «доступ» Siri до даних з ваших застосунків, тому питання лише за нормальною LLM, яка буде працювати на девайсі.

3. AI-агент — ваш майбутній тіммейт

Google DeepMind представила SIMA <Scalable Instructable Multiworld Agent> — AI-агента, що може слідувати текстовим підказкам для виконання завдань у різних ігрових світах.

DeepMind навчав свою модель, зібравши дані про те, як люди грали в десятки різних ігор на кшталт Valheim, No Man’s Sky, Goat Simulator. Вибір ігор не випадковий — дослідники фокусувалися на тих, де важливим є саме геймплей, а не сюжетна складова. Це дозволило AI розуміти та виконувати команди не тільки в цих іграх, а зрештою й адаптуватися до нових ігор, яких не було в її початковому наборі даних. На момент публікації SIMA навчився близько 600 навичок — повороти персонажа, пересування сходами, використання інструментів і мапи тощо. Проте складніші задачі по типу «знайди ресурси та збудуй табір» все ще викликають труднощі.

За останній час дослідники випустили чимало подібних AI-агентів і фреймворків. Наприклад, KnowAgent розширює можливості планування LLM, включаючи в набір даних детальну інформацію про потенційні дії та результати, що дозволяє зменшити галюцинації при плануванні та покращити виконання завдань. Також є Cradle, який не просто навчився виконувати певні дії у Red Dead Redemption 2, але й слідувати по сюжетній лінії гри, виконуючи місії.

Коментар Іллі: Наступна задача, яку потрібно вирішити людству для наступного ривка у сфері AI — це вміння розуміти фізичний світ. І хоч не дуже очевидно що, наприклад, SORA — це теж проєкт у цьому напрямі, то є пачка проєктів, які більш ціленаправлено рухаються в цей бік.

Насправді історія, як з self-dring. Їх варто було б випустити в фізичний світ отримувати досвід, але страшно, тому поки це все відбувається в різних віртуальних середовищах. Але я думаю, що через декілька років можна буде побачити на вулиці Сан Франциско (хоча скоріше в офісах) роботів типу Figure AI, які будуть тестуватися, як self-dring автомобілі.

Що ще нового у світі AI:

📝 У ЄС схвалили перший у світі повноцінний закон про регулювання AI, а також створили The European AI Office, який відповідатиме за безпеку, політику і розвиток технології. Щодо закону, то його головна ідея — регулювання AI на основі того, якої шкоди він може завдати суспільству: чим вищі ризики, тим жорсткіше регулювання.

🚨 В ЗМІ активно поширюється інформація про те, що OpenAI планує випустити GPT-5 цього року. Кажуть, що вона працює набагато краще за четверту версію і навіть відкриє доступ до AI-агентів для автономного виконання завдань. Тим часом минулого тижня OpenAI самі заспойлерили GPT 4.5 Turbo у своєму блозі, який оперативно видалили. Проте пошуковики проіндексували прев’ю анонсу, де було вказано, що GPT-4.5 Turbo «перевершує GPT-4 Turbo за швидкістю, точністю та масштабованістю», має контекстне вікно у 256K і обмеження знань до червня 2024 року.

👥 Також OpenAI оновила свій борд, відновивши у ньому Сема Альтмана. Новими членами стали: Сью Десмонд-Хелльман, ex-CEO Фонду Білла і Мелінди Гейтс; Ніколь Селігман, колишня президентка Sony Entertainment; і Фіджі Сімо, CEO Instacart, раніше відповідала за розробку застосунку Facebook.

💡 Google відкрили доступ до Gemini 1.5 Pro з контекстним вікном у мільйон токенів. Якщо ви в Україні — включайте VPN і заходьте тестувати сюди.

🖥 Nvidia анонсувала нові АІ-чіпи Blackwell B200. На графічному процесорі розміщено 208 млрд транзисторів. Чіп вважається «найпотужнішим у світі» — він дає х30 у продуктивності та споживає у 25 разів менше енергії, ніж їхній попередник H100 GPU. У Nvidia обіцяють, що чіпи дозволять тренувати моделі з трильйонними параметрами.

🤖 Також компанія представила Project GR00T, мультимодальну AI-систему, яка буде мозком для роботів, що дозволить їм розуміти мову, імітувати людські рухи, навчатися та взаємодіяти зі світом. Серед партнерів Nvidia — Figure, Apptronik, Agility Robotics, Sanctuary AI та Unitree. До речі, про Figure — компанія показала Figure 01, робота, якого розробляли у співпраці з OpenAI. Робот може вести бесіди, розробляти плани, виконувати дії та розуміти оточення, у якому він знаходиться.

🧑‍💻 Тепер ви можете створювати сайти за допомогою тексту в новому AI-конструкторі Wix. Принцип створення сайту у Wix схожий на розробку власного GPT: конструктор дає вам кілька питань <назва сайту, про що він буде, які цілі створення> → отримуєте драфт → редагуєте, що хочете. Ідеальний результат за кілька хвилин ви навряд чи отримаєте, але спробувати точно варто.

🔊 Pika Labs додала можливість створювати звукові ефекти з промптів, що дозволяє користувачам додавати до своїх відео реалістичні звуки. Зараз функція доступна лише підписникам версій Pro і вище, але найближчими тижнями скористатися нею зможуть усі.

🔐 В Midjourney забанили акаунти всіх співробітників Stability AI, звинувативши конкурентів у крадіжці їхніх зображень, через що сервіс був недоступний майже 24 години. CEO Stability AI Емад Мостак сказав, що не давав подібних вказівок і пообіцяв допомогти MJ у розслідуванні. Невідомо, чи пов’язано це зі справою, але днями Stability AI покинули Робін Ромбах та його група дослідників, які допомогли розробити Stable Diffusion.

👨‍🎨 З усім тим, Midjourney стає все кращим. Нова функція дозволяє відтворювати персонажів, копіюючи їхні риси обличчя та інші характеристики. Лайфхак — наразі функція краще працює з тими картинками, що були згенеровані саме у Midjourney.

🔙 В Індії задумались над тим, щоб вимагати від компаній, які хочуть працювати на ринку країни, дозволів на запуск своїх AI-моделей. Проте менш ніж за два тижні через критику від інвесторів і підприємців, від ідеї відмовились. Д – демократія.

📱 Тепер Reels будуть ще більш релевантними: Meta розробляє AI-систему, що підтримуватиме роботу всього механізму рекомендацій. Компанія хоче створити ще кращу систему й інвестувала заради цього мільярди доларів. Інвестиції виправдовують себе — завдяки імплементації цієї системи час перегляду Reels збільшився на 8-10% у застосунку Facebook.

🕸 Inflection AI випустила AI-модель Inflection-2.5, на базі якої працює чат-бот Pi. За якістю роботи вона вийшла майже на рівень GPT-4, але компанія використала значно менше обчислювальних ресурсів для її навчання. Чат-бот також навчився гуляти інтернетом, а компанія планує монетизувати його, додавши опцію платної підписки. А днями кофаундерів Inflection і більшу частину команди стартапу схантив Microsoft, заплативши компанії $650 млн.

📹 Два колишніх співробітники DeepMind Ішу Мяо та Цзюй Ван випустили генератор відео Haiper, який працює на базі власної AI-моделі. Користувачі зможуть створювати короткі відео за допомогою текстових підказок, змінювати їхній стиль і анімувати зображення. Компанія на seed-раунді залучила $13,8 млн — слідкуємо.

Цікаве з мережі:

Сем Альтман завітав на подкаст до Лекса Фрідмана. Виступаємо вашим ChatGPT і розказуємо найцікавіше з їхньої бесіди.

Сага з бордом: Сем назвав цей момент «найболючішим професійним досвідом у своєму житті». Спочатку він погодився на звільнення — і вже навіть роздумував про подальшу роботу, але згодом його переконали боротися за OpenAI. Наступні 4 дні після оголошення він майже не спав і не їв.

Тепер до вибору членів борду будуть підходити більш вдумливо — там має бути мікс технічної експертизи та людей, які розбираються у впливі технологій на суспільство. Але загалом Альтман радий, що подібна ситуація сталася відносно рано, адже він був впевнений, що на шляху до AGI всередині OpenAI точно має статися щось «божевільне».

Суд з Маском: Альтман не знає справжніх мотивів колишнього партнера, навіщо той пішов до суду. В якийсь момент Маск хотів, щоб OpenAI стала частиною Tesla, зробити її комерційною <іронічно, що саме через це Маск начебто судиться з OpenAI> і отримати повний контроль над компанією. В OpenAI відмовились, через що Маск покинув компанію; він не вірив в її успіх і був впевнений, що лише самостійно зможе розрулити ситуацію.

Пояснюючи перехід від non-profit, Альтман заявив, що якби в OpenAI заздалегідь знали те, що вони знають зараз, то вони б одразу розпочали свою діяльність, як комерційна компанія <адже дослідження вимагають великих грошей>. Сам позов Маска Сем не розглядає як щось серйозне з юридичного погляду — це радше політичний хід. На критику, що OpenAI не оупенсорсить свої продукти він відповів, що і Grok ніхто не відкривав, поки користувачі не почали говорити про лицемірність подібних звинувачень з боку Маска.

Sora: Sora відображає нове для AI-моделей розуміння світу. Для навчання використовувались синтетичні дані, але над маркуванням даних працювали люди. Попри круте демо, Sora зараз має багато обмежень, які дозволить подолати подальше активне масштабування та тренування на нових даних. Sora вже непогано розуміє фізику <хоч і не без фейлів> — з часом модель ставатиме лише кращою. Водночас випускати Sora в паблік будуть обережно через велику кількість можливих ризиків.

GPT 4: Альтман називає GPT-4 важливою, але проміжною віхою в еволюції OpenAI, підкреслюючи її роль, як сходинки до більш досконалих AI-моделей. GPT-4 дійсно вийшла проривною, у неї є свої «магічні моменти». Але також є багато недоліків, особливо в глибокому розумінні задач і багатокрокових міркуваннях, що мотивує компанію розробляти майбутні моделі. За його словами, GPT-5 буде такою, що на її фоні GPT-4 буде «жахливою», так само як можна подумати зараз про GPT-3.

Інтерфейс ChatGPT — революція, яка показала користувачам, що взаємодія з AI може бути зручною і практичною. Розширення контекстного вікна — дуже важливе для майбутніх ітерацій моделі, адже це дозволить людям використовувати AI по-новому. В майбутньому воно може стати настільки великим, що туди можна буде вмістити всю історію і контекст, що стосується певної людини — це дозволить максимально персоналізувати взаємодію. Наприклад, модель зможе аналізувати досвід людини та давати їй персоналізовані поради, допомагаючи зростати як особистості.

GPT-5: OpenAI планує випустити «дивовижну нову модель» цього року, проте не факт, що вона називатиметься GPT-5. Імовірно, спочатку буде певна кількість «середніх» апдейтів, які важливо випустити перед релізом GPT-5. Імовірно, вони досягнуть або навіть перевищать можливості, які люди очікують від наступного покоління моделі. Немає якогось одного фактора, який би дозволив зробити експоненціальний стрибок — скоріше це комбінація різних елементів, таких як збільшення обчислювальної потужності, нові технічні підходи тощо.

Альтман очікує, що перехід від GPT-4 до GPT-5 значно покращить ефективність ChatGPT у багатьох сферах. Особливо він хоче, щоб AI навчився краще розуміти користувачів і їхні запити — це має бути схоже на певний емпатичний та інтелектуальний зв’язок між людьми.

Значні зміни чекають на програмування — деякі спеціалісти зможуть повністю покладатися на природну мову для розробки. Водночас найкращі програмісти будуть комбінувати природну мову і традиційне кодування, коли це необхідно — хоча зараз важко точно сказати, у яких пропорціях це відбуватиметься.

В якийсь момент варто очікувати на появу роботів або «робо-мозку» від OpenAI <привіт, Figure AI? — прим.>. Штучний інтелект потребує прямої взаємодії з фізичним середовищем заради еволюції: було б «депресивно» мати AGI, обмежений лише віртуальною сферою без здатності напряму взаємодіяти та впливати на реальний світ.

Пам’ять і конфіденційність: етична проблема полягає в тому, щоб збалансувати користь від отримання персональних даних користувачів з проблемами конфіденційності. Практична проблема полягає в розробці надійних модельних архітектур та інфраструктури для безпечного управління такими персоналізованими AI-асистентами. Тут Сем acts as ідеальний політик і каже про важливість прозорості та контролю за даними користувачів: у людей має бути можливість редагувати або видаляти дані про себе, які AI «запам’ятав» про них.

Q*: Цей проєкт дійсно існує. Що це таке — Альтман так і не розповів, але натякнув, що він стосується вдосконалення можливостей міркування в AI-системах. Важливо підходити до релізів обережно. Еволюція штучного інтелекту — безперервна рівномірна подорож, а не монументальні стрибки, як це виглядає зі сторони. Саме тому OpenAI підходить до своїх апдейтів ітеративно, що дозволяє суспільству поступово адаптуватися до прогресу технології.

Про майбутнє AI: Ні, Альтман не шукає $7 трлн інвестицій для розбудови власних фабрик з виробництва чіпів, як про це багато говорили у медіа. Водночас він впевнений, що у майбутньому обчислювальні ресурси стануть найціннішим товаром, подібним до енергії. Масштабувати обчислювальні ресурси для задоволення глобального попиту буде дуже важко через енергетичні проблеми, обмежену кількість чіпів, розтягнуті ланцюги постачання та складну інфраструктуру центрів обробки даних.

Геймченджером має стати ядерна енергетика, оскільки з часом і розвитком технологій енергетичні потреби людства лише зростатимуть. Сем розчарований через занепад розвитку ядерного поділу через громадський страх і сподівається, що в майбутньому сфера відродиться.

Конкуренція всередині AI-індустрії — це добре, тому що це стимулює інновації, продукти розвиваються швидше; погано — бо це розпалює «гонку озброєнь», яка може поставити під загрозу безпеку людства.

Про Google, рекламу і безпеку: OpenAI напряму не конкурує з пошуковиком Google. Компанія хоче кардинально змінити підхід до того, як люди взаємодіють з інформацією — замість того, щоб надавати ранжовані посилання, AI-система має самостійно аналізувати інформацію і безпосередньо відповідати на питання користувача. Водночас неможливо просто поєднати умовний ChatGPT з функціями пошуку, оскільки важливо, щоб ця система була зручною для користувачів <хм, але у Perplexity наче це вдається? — прим.>.

AI-пошуковики, які монетизуються рекламою — це поганий підхід, оскільки у такий спосіб відповіді системи будуть спотворені інтересами рекламодавців. Бізнес-модель OpenAI стійка, оскільки користувачі платять за додаткові послуги, на які ніяк не впливають треті сторони. Водночас компанія думає над новими стратегіями зростання.

AGI: ChatGPT 3.5 дійсно змусив людей задуматись про реалістичність досягнення AGI. Зараз немає сенсу говорити про часові рамки, оскільки у нас немає усталеного визначення цього терміна — саме це питання має бути основним фокусом зараз. Водночас він впевнений, що AI-системи, які ми матимемо до кінця десятиріччя, будуть «дивовижними» у порівнянні з сучасними моделями.

AGI матиме значний глобальний економічний вплив. Система, що значно прискорить наукові відкриття, точно змінить світ на краще. Водночас жодна особа чи компанія не повинні мати повного контролю над AGI-системою. Тому дуже важливо встановити правила гри — у цьому мають взяти участь уряди держав <Альтман навіть готовий захищати цю позицію від нападок AI-accelerationists, про яких ми розповідали тут>, регулюючи відповідальний розвиток технології.

Втрата людського контролю над AGI зараз не є пріоритетною проблемою для Альтмана, хоча він визнає, що над цим питанням потрібно працювати. Він вважає, що надто велика увага до цього «театрального» ризику затьмарила інші значні ризики AI.

Дякуємо, що дочитали!

Не забудьте порадити наш дайджест своїм знайомим, яким цікава тема AI/ML. А усі побажання, питання та поради для покращення ньюзлеттеру можна традиційно залишити за посиланням 🙂

AI HOUSE — найбільше та найпотужніше АІ-комʼюніті в Україні. Обмінюємось досвідом і знаннями, здобуваємо навички, реалізовуємо нові технологічні та бізнесові ідеї, розвиваємо індустрію та сприяємо народженню продуктових AI-стартапів. AI HOUSE є частиною екосистеми технологічної компанії Roosh.

Ви отримали цей лист, тому що підписані на
email-розсилку від AI HOUSE. Відписатися від розсилки.

Відправлено через