AI HOUSE на зв’язку! Нам вже не терпиться поділитися з вами новинами та спершу — кілька крутих апдейтів від нас: - 13 грудня о 19:00 відбудеться третя лекція другого сезону проєкту AI for Ukraine. Лектор — Хасіб Хан, Senior AI/ML Engineer в Google, з темою «The Ethical Implications of AI: How to Strike a Balance between Progress and Humanity». Приєднуйтеся, щоб обговорити етичні міркування, пов’язані з розробкою та застосуванням AI.
Хасіб навчався у Стенфордському університеті. Наразі очолює спільні ініціативи Meta Research та Google Brain Team, розвиває напрям AI в MedTech. Експерт, якому точно є що розповісти, тож реєструйтеся🌪
- Не можемо не згадати і про новий випуск AI HOUSE Podcast. До нас завітав Сергій Купрієнко — CEO & Founder у Swarmer, щоб поспілкуватися про MilTech в Україні. Сергій розповів про заснування власного AI-стартапу, пояснив в чому схожість між сучасною Україною та США 30-х років минулого сторіччя. Одна з найцікавіших тем, яку підняли — ефективне використання АІ на війні та як створювати дрони, якщо не маєш такого досвіду. Свіжий епізод вже на нашому YouTube-каналі та на всіх подкаст-платформах 🔥
- «Зібратися офлайн у Києві та побрейнштормити — це завжди хороша ідея», — подумали ми і створили Idea Generation Day. Це івент, на якому зберуться AI/DL-розробники з 2+ роками досвіду, щоб протягом дня попрацювати над пошуком вирішення проблем у сферах Generative AI, LLM та Computer Vision. Обіцяємо роботу в командах та нестандартні виклики. Реєстрація триватиме до 14 грудня, а кількість місць обмежена.
А тепер — до AI-новин! Сьогодні розбиратися з найголовнішими з них нам допоможе Остап Вінявський — Computer Vision Engineer в DRESSX, Магістр інформатики та Data Science в УКУ. |
|
Впевнені, що за цим сюжетом слідкували всі <якщо пропустили — усі-усі подробиці зібрані тут>, але розкажемо про хеппі (?) енд. Сем Альтман став новим-старим CEO OpenAI та оголосив про створення нового борду, в який не потрапив Ілля Суцкевер, головний науковий спеціаліст компанії. Весь сюжет розгорівся через політику <якщо вірити репортажу від The New Yorker>. Альтмана описують як «слизьку» людину, бо він спробував відсторонити членкиню правління Хелен Тонер, яка стала співавторкою статті, де OpenAI критикували за «розпалювання хайпу навколо AI». Для цього Альтман спілкувався з кожним членом правління і начебто «брехав про те, що думають інші» кожному з них, щоб переконати їх звільнити Тонер. Ба більше, стверджується, що «такі речі відбувалися роками». Виходить, що він свого досяг — Тонер у новому борді немає. Картковий будинок на який ми заслужили! Паралельно ширяться чутки про потужну модель Q* від OpenAI, про яку раніше ніхто не повідомляв. Q* начебто навчилася розв'язувати математичні задачі на недосяжному досі рівні — наприклад, ті, які не були включені в дані, на яких вона тренувалася. До того ж ця розробка нібито дозволила компанії подолати основну перешкоду для розробки моделей наступного покоління — почати генерувати достатньо якісні дані для навчання нових моделей замість того, щоб використовувати виключно зібрані з інтернету. The Information, пише, що такий стрімкий прогрес викликав занепокоєння серед співробітників OpenAI, оскільки світ може бути не готовим до настільки просунутих систем. |
|
Коментар Остапа: На мою думку, «політичні» ігри між Альтманом та Суцкевером — це типова розбіжність поглядів між бізнесменом та науковцем. Перший хоче максимально швидко випустити продукт, та ітеративно покращувати його. Для другого важливіше фундаментальне дослідження технології, більш ґрунтовний аналіз її небезпечних сторін. Альтернатива — стратегія Meta, де всі дослідження про AI є відкритими для комʼюніті. Який з цих підходів є найкращим, коли на кону створення AGI, покаже тільки час :) Щодо моделі Q*, то я погоджуюся з думкою Яна ЛеКуна, що зараз основною проблематикою для LLM є навчитися довгостроково планувати в середовищі з багатьма невідомими. Q* може бути спробою від OpenAI створити таку систему, проте чи дійсно модель вже досягнула бажаної цілі — поки невідомо. Якщо так, то це буде великий геймченджер. |
|
Останні тижні порадували нас купою анонсів нових AI-інструментів для генерації відео. - Компанія Stability AI представила оупенсорсну модель Stable Video Diffusion. Реліз включає відкритий доступ до коду моделі на GitHub; скачати її можна на Hugging Face;
- Runway оновив свою модель text/image/video-to-video модель Gen 2. Її вже називають «геймченджером» та «поворотним моментом у генеративному AI завдяки новій функції Motion Brush, яка дозволяє анімувати статичні картинки просто виділивши якусь частину зображення;
- Meta показала два нових інструменти — Emu Video та Emu Edit, які дозволяють користувачам створювати короткі відео з титрами та редагувати відео за допомогою текстових підказок.
- Стартап Pika представив свою модель Pika 1.0, яка має «простий інтерфейс» і може створювати та редагувати відео в різних стилях <3D-анімація, аніме, мультфільми та сінематік> та дозволяє навіть апскейлити власні ролики. Паралельно компанія оголосила про залучення $55 млн у pre-seed та seed-раундах. Протестувати інструмент поки що можна лише записавшись у вейтліст.
|
|
Коментар Остапа: Колись дифузійні моделі стояли у витоків хайпу навколо генеративного АІ у сфері компʼютерного зору, зокрема створення зображень. З того часу з’явилось безліч сервісів та відкритих моделей, в тому числі StableDiffusion. На її основі одразу почався розвиток в напрямках генерації 3D обʼєктів і сцен, а також відео. І вже зараз ми бачимо, що наука та індустрія поступово доходять до рішень, які можна показувати користувачам. Зараз ми бачимо перші кроки в напрямку генерації відео з тексту, зображення чи інших відео. Поки що в цих рішеннях є очевидні проблеми з тривалістю роликів, консистентністю кадрів та контрольованістю процесу. Саме останній елемент є дуже важливим для продакшену відео, де часто ітеративно потрібно вносити зміни до окремих кадрів, руху, освітлення та інших деталей на відео. Поточні сервіси вже можуть змінити сферу розваг, стилізувати відео чи генерувати круті анімації, проте пройде ще трохи часу, перш ніж ми побачимо реалістичні АІ-generated рекламні відео або ТікТоки. |
|
3. Портативний штучний інтелект від Mozilla. |
|
Mozilla створила Llamafile — інструмент, який дозволяє запаковувати великі LLM-ки в один файл. Це дозволить створити власні персональні AI-асистенти, які можна носити за собою на флешці. Крім того, так можна «консервувати» моделі, оскільки з часом вони отримують оновлення і дістати попередні версії зазвичай важко. Файли, що створює Llamafile, сумісні з шістьма операційними системами, включаючи macOS, Windows та Linux. «Встановлювати» їх теж не потрібно, що дозволить завантажувати собі моделі на кшталт Mistral-7B-Instruct або WizardCoder-Python-13B і використовувати їх будь-де. Більше інфи — на GitHub <так, це оупенсорс>. |
|
Коментар Остапа: Llamafile виглядає як перспективне рішення, що збільшить доступність великих мовних моделей для кінцевих користувачів. Ідея полягає в тому, що запустити мовного агента можна буде в один клік на широкому спектрі платформ. Також це спростить поширення «кастомних» LLM-моделей, оскільки всі налаштування та середовище будуть запаковані в один бінарник, а від користувача не буде вимагатися проводити достатньо непросту інсталяцію. Таке рішення зможе скласти конкуренцію сервісам на основі закритих мовних моделей, наприклад Chat-GPT чи Bard, оскільки для багатьох користувачів дуже важливою є простота інтерфейсу. Можливо, Llamafile змусить OpenAI, Alphabet та інших переосмислити їхній підхід до залучення та стримування користувачів. Звичайно, ця технологія ще тільки в зародку, і йде зі своїми обмеженнями. Так, на Windows обмеження на розмір бінарника в 4ГБ не дозволить вам запакувати мовну модель в єдиний файл. Тож очікуємо прогресу в стисненні та оптимізації мовних моделей, що нарешті дозволить запускати їх і на мобільних девайсах. |
|
🤖 Google випустила свою вдосконалену AI-модель Gemini, яка буде інтегруватися в різні застосунки компанії. Google обіцяє, що модель буде мультимодальною, писатиме код, у неї прокачаний reasoning та, що головне, вона вмітиме розв’язувати математичні задачі, з якими не може впоратись GPT. Внутрішні тести показали, що Gemini працює краще за GPT-4 у 30 з 32 бенчмарках. Буде три версії Gemini — Nano (для користувачів Android), Pro (вже доступна в Bard англійською мовою, підходить для «широкого спектра завдань»), Ultra (для «складних завдань», розумітиме 170 мов, включаючи українську, буде доступною на початку 2024 року). 🦾 Inflection дотренувала Inflection-2, свою покращену LLM-ку, яка також переважає GPT за деякими бенчмарками. Експерти називають її однією з найпотужніших моделей, доступних сьогодні — недарма для навчання використовувалися 5000 відеокарт NVIDIA H100. 🖼 Stability AI випустила Stable Diffusion XL Turbo, AI-модель, яка може швидко генерувати зображення на основі письмового запиту. Настільки швидко, що компанія називає це «генерацією зображень у реальному часі». Але є й погані новини — після листа від інвесторів, які закликали генерального директора піти у відставку через фінансову нестабільність і проблеми в управлінні, компанія розглядає можливість продажу свого бізнесу. 🗯 Amazon представила чат-бот Q, який орієнтований на бізнеси. Проте злите внутрішнє листування співробітників компанії показало, що Q «сильно галюцинує» і навіть розкриває конфіденційну інформацію, що змусило розробників усувати баги в екстреному порядку. 👾 Anthropic оновила свою модель Claude — версія 2.1 дає доступ до контекстного вікна у 200к токенів. Крім того, нейронка стала на 50% точнішою та матиме доступ до зовнішніх API. 🔐 У DeepMind знайшли вразливість, яка дозволяє витягувати навчальні дані з мовних моделей. Для цього треба попросити нейромережу писати нескінченно якесь загальновживане слово — ось приклад. Все настільки серйозно, що давати подібні промпти для ChatGPT тепер заборонено; якщо ж ви спробуєте, то отримаєте від чат-бота відповідь «Сорі, не допоможу з таким запитом». 💪🏼 Це не єдина новина від DeepMind. Так, компанія випустила генератор музики Lyria; AI-модель GraphCast навчилася прогнозувати погоду краще за провідний європейський метеорологічний центр; а AI-інструмент GNoME спрогнозував склад 2,2 млн нових кристалів (в 45 разів більше, ніж люди за весь час досліджень) — 380 тис. з них вважаються достатньо стабільними для можливого виготовлення інноваційних надпровідників, суперкомп’ютерів і акумуляторів нового покоління. 🇪🇺 Європа обігнала США за кількістю висококваліфікованих AI-спеціалістів та фаундерів AI-стартапів. За останні 10 років кількість людей, які працюють у сфері штучного інтелекту в Європі, зросла на 1000%. Проте у сфері венчурних інвестицій Європа поки не може кинути виклик США. 💰 Ілон Маск планує вивести на біржу свій стартап x.AI, де хоче залучити $1 млрд, продаючи акції. Компанія вже зібрала $135 млн від чотирьох інвесторів. 🎤 Після апдейту Suno.ai дозволяє користувачам генерувати пісні з власним текстом. Тепер моделлю можна користуватися прямо на сайті <раніше — через Discord>. Ентузіасти вже зібрали кілька порад для генерації справжніх шедеврів.
🎮 Bitmagic відкрила доступ до альфа-версії своєї AI-платформи для розробки ігор за допомогою текстових промптів. З тексту користувачі можуть створювати «повноцінні 3D-ігри», генеруючи ігровий світ, ресурси та сюжет. Наразі ігри обмежені за розміром, але можливості будуть розширюватися — розробники обіцяють щомісячні оновлення. Спробувати платформу можна в Discord. |
|
Тепер ми ще менше можемо довіряти пошуку в інтернеті. Причина — інтеграція AI-асистентів в пошуковики. Перехід в еру генеративного штучного інтелекту відкриває старі-нові проблеми з пошуком в інтернеті — тепер ми ще менше можемо бути впевненими у тому, що Google видає нам фактологічно правильну інформацію. Йдеться про сніпет, який пропонує користувачам швидку відповідь без необхідності самостійно гуляти сайтами. Наприклад, на запит «What is an African country beginning with K?» (яка африканська країна починається на K?) Google відповідав, що таких немає. Продовження тексту свідчить, що «найближчою до цього є Кенія, яка починається на звук «К», але насправді промовляється як «К». Завжди цікаво дізнаватися такі дрібниці». Це очевидно текст згенерований згалюцинований ChatGPT або іншою нейромережею. Google взяв цей фрагмент з повідомлення користувача на сайті Hacker News, який цитував інформацію з Emergent Mind, де збирають різноманітні дослідження про штучний інтелект. Тобто в якийсь момент пошукові боти Google забрали цей текст, і тепер платформа автоматично видає це безглуздя як факт. Подібні інциденти виникали й раніше: наприклад, у 2017 році один із сніппетів Google зазначав, що Барак Обама — король Америки. Google ніколи не був ідеальним, але ця проблема стосується усіх пошуковиків, які інтегрують AI у свою роботу. Просто популяризація генеративних нейромереж робить її ще серйознішою. Минули часи, коли користувачі мали самостійно шукати відповідь на своє питання — зараз пошуковик видає її прямо на сторінці пошуку з посиланням на джерело. Інтеграція генеративного AI дозволяє компанії йти ще далі, генеруючи відповідь на запит, перш ніж вам будуть запропоновані будь-які посилання <в Україні ця функція поки недоступна, але в США вже можна експериментувати>. Журналістка The Atlantic розповідає, що AI-пошуковик від Google також видавав їй неправильні відповіді, впевнено посилаючись на непідтверджені чутки. З питанням про Африку він теж не впорався: «Немає жодної африканської країни, яка б починалася на літеру «К». Однак Кенія є однією з 54 країн Африки, і її назва починається зі звуку «К». Як вишенька на торті — бот «одружив» її <незаміжню жінку> з власним дядьком, посилаючись на некролог її дідуся, в якому про такі сімейні пертурбації нічого не вказано. Експерти пропонують кілька ідей, які могли б допомогти зменшити потенційну шкоду від AI-пошуку: - Компанії могли б відкривати свої інструменти для дослідників, щоб ті проводили стрес-тестування;
- Компаніям варто повідомляти про якість фактів, коли люди запитують про щось важливе;
- Можна також використовувати техніку RAG <retrieval-augmented generation — генерація, доповнена пошуком>, яка змушувала б бота перехресно перевіряти свою відповідь з тим, що опубліковано в інших джерелах. Щось на кшталт самоперевірки, яка допомагала б верифікувати правильність відповіді;
- Людська модерація та перевірка фактів. Щоправда, тут результати невтішні — у жовтні Google звільнила 40 спеціалістів з підрозділу Google News. Саме ця команда раніше працювала з фактчек-організаціями.Очевидно, Google не планує більше інвестувати у цей напрям.
Поки що незрозуміло, як розвиватиметься ця проблема надалі — можливо, реліз моделі Gemini покращить AI-пошук в Google. |
|
|
---|
|
Дякуємо, що дочитали! Не забудьте порадити наш дайджест своїм знайомим, яким цікава тема AI/ML. А усі побажання, питання та поради для покращення ньюзлеттеру можна традиційно залишити за посиланням 🙂 |
|
|
---|
|
AI HOUSE — найбільше та найпотужніше АІ-комʼюніті в Україні. Обмінюємось досвідом і знаннями, здобуваємо навички, реалізовуємо нові технологічні та бізнесові ідеї, розвиваємо індустрію та сприяємо народженню продуктових AI-стартапів. AI HOUSE є частиною екосистеми технологічної компанії Roosh. |
|
|
---|
|
|
|