Привіт-привіт, це AI HOUSE з добіркою найцікавішого, що відбувалося у світі штучного інтелекту за останні два тижні. Почнемо з наших традиційних апдейтів: Другий сезон AI for Ukraine завершено. Фінальну лекцію провів Chief Science Officer у BetterMedicine Дмитро Фішман — він розповів як tech-спеціаліст(к)и можуть розвивати сферу охорони здоров’я. Нагадаємо, що всі лекції та воркшопи AI for Ukraine доступні у записі за вільний донат <там майже 100к — доб’єм?>. Є час переглянути, якщо щось пропустили, поки ми підбиваємо підсумки та готуємося до наступних виступів зірок AI/ML індустрії. 29 лютого <ми старанно обирали дату> у Києві пройде офлайн-мітап ‘From Hype to Reality: Building & Scaling Practical LLM Solutions’. Чекаємо всіх AI/ML-спеціалістів/-ок з досвідом 3+ роки. Зануримося в суть створення та масштабування рішень на основі LLM, а також будемо розбирати кейси та багато нетворкати. Серед спікерів: Мар’яна Романишин [Комп'ютерна лінгвістка, Area Tech Lead у Grammarly], Роман Кислий [Applied Data Scientist, ведучий AI HOUSE Podcast] та Ілля Стрєльніков [Data Scientist у YouScan]. Теми лекцій, програма, реєстрація – у нас на сайті. Побачимось!
- Ділимося ще топ-можливістю від SET University — буткемп WE.Brave для стартапів, що засновані жінками. Команди-учасники отримають інтенсивне навчання та менторство від експертів українського і глобального IT-ринку, а переможці – бюджет на консалтинг для розвитку бізнесу. Набір заявок вже відкритий, триватиме до 25 лютого, тож не зволікайте та реєструйтеся тут.
А тепер — до AI-новин! Сьогодні розбиратися з найголовнішими з них нам допоможе Володимир Кирилов — студент програми Master of AI в USI. |
|
1. Тейлор Свіфт та AI-порно |
|
Сексуалізовані зображення співачки Тейлор Свіфт, згенеровані штучним інтелектом, розійшлися мережею. Наприклад, один із найпопулярніших дописів у X зібрав понад 45 млн переглядів і проіснував на платформі приблизно 17 годин. Усе було настільки погано, що в X на деякий час взагалі заборонили пошук за іменем співачки. Спершу зображення з’явилися на 4chan і в групі Telegram, де постійно генерують подібні картинки з різними жінками — часто за допомогою програми Microsoft Designer. З часом Microsoft закрила лазівку, яка дозволяла генерувати діпфейки, а CEO компанії Сатья Наделла назвав ситуацію зі Свіфт «жахливою та тривожною», закликавши до співпраці між tech-компаніями та урядами для боротьби з діпфейками та AI-дезінформацією. Ситуація стала настільки гучною, що вже за кілька днів після скандалу американські сенатори представили законопроєкт, який криміналізує поширення сексуалізованих AI-зображень, розповсюджених без згоди. Проте одна справа прийняти закон, а інша — забезпечити його дотримання в рамках інтернету. Кейс із Тейлор Свіфт підсвітив проблему порнографічних діпфейків для всього світу. Але фейковий контент і AI-порно безконтрольно циркулює в мережі вже давно — є цілі компанії, які заробляють на генерації фейкових зображень, новин і відео. Жертвами подібних маніпуляцій стають сотні тисяч людей, які не є настільки ж медійними як найхайповіша співачка сучасності — цю проблему не вирішити одним законопроєктом, і тут дійсно важлива кооперація на глобальному рівні. |
|
Коментар Володимира: Найкращий спосіб вплинути на проблему порушення етичних норм використання штучного інтелекту — посилення шкільних та університетських (особливо технічних) програм дискусіями про етику. Використаю цю можливість, щоб порекомендувати пост докторки Рейчел Томас. |
|
2. Google зарелізила Gemini Ultra — модель уже доступна в Україні |
|
Bard став Gemini, а Google нарешті зарелізила Gemini Advanced — чат-бот, який дає доступ до Ultra 1.0 — найпотужнішої AI-моделі від Google, яка <за обіцянками компанії і бенчмарками> краща за GPT-4. Як буде в реальності — подивимось. Платна версія Gemini нібито краще кодить, розмірковує, виконує детальні інструкції, креативить і пам’ятає контекст діалогів. З часом Gemini Advanced отримає нові корисні функції, зокрема удосконалені функції створення коду, а також додавання й глибший аналіз файлів, документів, даних тощо. Чат-бот мультимодальний, тобто вміє працювати з текстом, зображеннями та голосом. На додачу компанія обіцяє інтеграцію Gemini у Документи, Youtube, Карти, Gmail, Презентації та інші застосунки Google. Також з’явився застосунок Gemini для смартфонів — Android / iOS. Проте поки що він доступний лише для користувачів у США та Східній Азії. Gemini Advanced коштує $20 на місяць <насправді — 910 грн, тобто майже $25 за нинішнім курсом>, перші два безкоштовно. Питання в тому, скільки користувачів платної версії ChatGPT будуть готові перейти на продукт Google <або підписуватись на обидва чат-боти паралельно>. Також компанія додала до безоплатної версії Gemini українську мову, можливість генерувати зображення за допомогою моделі Imagen 2, а сам чат-бот непогано так прокачали з точки зору якості роботи. Якщо вірити таблиці на Hugging Face, зараз він працює краще за GPT-4 і трохи гірше за GPT-4 Turbo. |
|
Коментар Володимира: Моделі від різних великих компаній мають схожі архітектури, але суттєво відрізняються своїми тренувальними даними. Залежно від вашого домену застосування цих чат-ботів, ви можете отримати суттєвий приріст якості виконання ваших задач. Я тримаю маленький набір важливих мені задач, на яких тестую кожну модель. На Gemini я в першу чергу дивлюсь як на новий інтерфейс до решти продуктів Гугл. |
|
3. Arc Browser + Perplexity = заміна Гуглу? |
|
Коли ChatGPT тільки з’явився, в інтернеті одразу почали говорити про те, як чат-бот швидко вб’є традиційний пошук за допомогою Гугла. Цього вочевидь не сталося. Але в цьому напрямі активно працює стартап Perplexity, який розробляє однойменний AI-пошуковик, що шукає інформацію в інтернеті та генерує відповіді за допомогою власної LLM, а також GPT-4, Claude 2.1, Gemini. Іноді пошуковик може видавати неправильні результати <проблема LLM і галюцинацій усе ж таки ще не вирішена ніким>, проте їх завжди можна перевірити, прогулявшись за посиланнями, які він залишає під час генерації тексту. Водночас сам формат того, що ти ставиш питання живою мовою і отримуєш пряму відповідь дійсно зручний і заощаджує купу часу + кидає виклик бізнес-моделі Google. Компанія активно фандрейзить <підняла близько $100 млн, зокрема від Джефа Безоса>, а зараз почала заходити в колаборації — у минулому випуску ми розказували, що за допомогою Perplexity буде «гуглити» новий хайповий AI-гаджет rabbit r1, а тепер пошуковик інтегрували у браузер Arc. Arc — це браузер від стартапу The Browser Company, який будує AI-агента, що міг би шукати інформацію в мережі замість вас. Наразі браузер доступний лише для iOS, кілька тижнів тому вийшов застосунок Arc Search для Айфонів. Загалом колаборація Arc та Perplexity виглядає, як ідеальний метч і крок до того, як буде виглядати стандартний досвід користування пошуковиком вже дуже скоро. Чи вистачить їм сили, аби перемогти Google? Питання поки відкрите. |
|
Коментар Володимира: Генеративні інтерфейси до пошукових індексів допоможуть мені з навігацією складних не юзер-френдлі сайтів, контент яких я розумію дуже приблизно, а також автоматичною агрегацією. Маленьким компаніям з маленькою кількістю користувачів простіше ітерувати з новими ідеями пошуку використовуючи технології, розроблені в Гугл: двигун для браузера та архітектуру чатбота. А от замінити головну сторінку Гугла на генеративний чатбот для мільярду користувачів поки ще дуже дорого. Як тільки гугл вирішить цю проблему, то також надаватиме генеративний інтерфейс до найбільшого в світі індексу. Чекаю на більше варіацій на інтерфейси пошуку. |
|
📋Крім релізу Gemini, є ще кілька цікавих апдейтів від Google:
- Lumiere — нова модель для генерації відео з тексту або зображень. Вона використовує технологію Space-Time-U-Net для створення високореалістичних та <поки що лише> п’ятисекундних відео. Пейпер — тут.
- MobileDiffusion — AI-модель для створення зображень, розроблена спеціально для смартфонів <розмір моделі всього 520 млн параметрів>. Генерує круті картинки за лічені секунди як на Айфонах, так і на Андроїдах. З цікавого — результат постійно оновлюється, поки ви вводите кожне наступне слово.
- В Google Картах інтегрують AI для покращення пошуку нових цікавих місць. Користувачі зможуть просто писати, куди вони хочуть сходити — наприклад, ресторани української кухні або магазини одягу, а Карти надаватимуть їм персоналізовані рекомендації. Поки що функція доступна лише в США.
🦾Meta випустила Code Llama 70B — свою «найбільшу та найефективнішу модель», яка набрала 53% за бенчмарком HumanEval; це більше, ніж GPT 3.5, але менше за GPT-4. Модель оупенсорсна, безоплатна для використання, може обробляти ще більше запитів, ніж попередники, підтримує кілька мов програмування та конкурує з іншими AI-генераторами коду <такими як CodeWhisperer від Amazon та GitHub Copilot від Microsoft>. ✅У Facebook, Instagram і Threads маркуватимуть зображення, створені AI. Будуть як видимі маркери на дописах у соцмережах, так і невидимі водяні знаки, які вбудовуватимуться у зображення, щоб їх могла «бачити» система. Зараз маркується весь AI-контент, створений за допомогою інструментів Meta, проте найближчими місяцями ініціатива розшириться і на інших AI-розробників — OpenAI, Midjourney, Google тощо. Btw, вотермарки з'являться також у метаданих та на самих зображенях, згенерованих DALL-E 3 від OpenAI. 🧩28 січня на Hugging Face з’явилася нова модель miqu-1–70b, яка за деякими бенчмарками працювала майже на рівні GPT-4. Як виявилось, це був витік від одного з клієнтів Mistral — інформацію підтвердив засновник стартапу Артур Менш. За його словами, ця модель є старою розробкою компанії, яку перенавчили, взявши за основу Llama 2 від Meta <ось вам і сила оупенсорсу>. Також він додав, що відтоді Mistral значно прогресував і вже скоро анонсує щось цікаве <ось вам і сила оупенсорсу х2>. 👨💻AlphaCodium — нова оупенсорсна модель для написання коду, яка працює краще за GPT-4 і AlphaCode від DeepMind. Одна з головних фішок — flow engineering, метод, який містить елементи архітектури GAN. Фактично, тут є одна модель, що генерує код, і є друга, яка одразу ж його тестує та перевіряє на наявність помилок. 📰AI все активніше заходить на медіаринок. Microsoft запартнерилися з новинним сайтом Semafor — журналісти та редактори будуть використовувати ChatGPT для проведення досліджень, а на сайті з’явиться спеціальна стрічка Signals, де будуть з’являтися ці матеріали. Крім того, компанія анонсувала серію проєктів, які допоможуть медіа інтегрувати AI у їхню діяльність. А в NY Times повідомили, що сформують команду, яка шукатиме способи використовувати AI, щоб покращити свої репортажі <готувати їх, як і раніше, будуть люди>. 🤗Hugging Face запускає альтернативу GPT Store. Є кілька моментів, які відрізняють Hugging Chat Assistants від продукту OpenAI — цей стор безоплатний — і так само можна вільно шерити свого AI-помічника публічно. Також користувач, який хоче зробити власного AI-помічника, може вибрати з кількох оупенсорсних моделей на свій розсуд — від Llama 2 до Mixtral. Але поки що ці AI-помічники не вміють ходити в інтернет, не підтримують RAG і не здатні генерувати логотипи для себе <останнє, думаємо, точно можна пережити>. 🖼Midjourney тестує новий алгоритм, який має подолати поширену проблему AI-генераторів зображень — створення картинок в одному стилі. 🍏Тім Кук підтвердив, що цього року в Apple з’являться функції, пов’язані з GenAI. Що це буде — поки невідомо, але інсайдери стверджують, що на нас чекає «найбільше оновлення» в історії iOS. Паралельно компанія випустила AI-аналог Фотошопу — модель MGIE <MLLM-Guided Image Editing>, яка дозволяє редагувати зображення за допомогою текстових підказок. 🤖OpenAI «вилікувала» ChatGPT від «ліні» та анонсувала, що найближчими місяцями GPT-4 Turbo навчиться розуміти та інтерпретувати зображення. Також у будь-який діалог з ChatGPT тепер можна інтегрувати кастомних ботів, просто тегнувши їх як у Slack <@назва_бота>, щоб пов’язати навички та відповіді різних GPTs в одному чаті. 📝Група американських дослідників стверджує, що їм вдалося розробити надточний інструмент Binoculars для ідентифікації тексту, створеного AI. Популярні інструменти-детектори <GPTZero чи Ghostbuster> не вирізняються точністю, але розробники впевнені, що Binoculars стане революцією і майже ніколи не помилятиметься. «За останні шість місяців дослідження з виявлення [згенерованого тексту] досягли величезних успіхів — і тепер їх можна ефективно використовувати», — кажуть вчені. Що ж, кому цікаво перевірити, пейпер тут. 📜Троє студентів успішно використали штучний інтелект для розшифрування стародавнього сувою, пошкодженого виверженням Везувію в 79 році н.е. в рамках проєкту Vesuvius Challenge. Сувій, частина колекції, яка, як вважають, належала тестю Юлія Цезаря, раніше був нечитабельним через пошкодження. Існують ще сотні сувоїв, які розкопали у XVIII столітті, але раніше нікому не вдавалося їх розшифрувати через значні пошкодження від виверження вулкана. 🚘Tesla випустила оновлення FSD Beta v12, що фактично є останньою надією компанії, щоб виконати свої обіцянки перед клієнтами щодо безпілотного водіння. Найбільша відмінність від попередніх оновлень FSD полягає в тому, що управління автомобілем тепер буде здійснюватися AI, а не кодуватися програмістами. |
|
Чат-боти починають розуміти нас LLM-ки часто називають «стохастичними папугами», тобто технологією, яка дуже добре пише текст, але не розуміє його так, як люди. Серед AI-дослідників є й інша думка — можливо, чат-боти на кшталт ChatGPT і Bard не просто імітують людську мову, але й почали пов’язувати різний контент між собою і розуміти його? Відповідь на це питання шукали в Quanta Magazine. Нова теорія, запропонована Санджівом Аророю з Прінстонського університету та Анірудхом Гоялом з DeepMind, стверджує, що завдяки постійному навчанню на все більшій кількості даних, LLM-ки не просто можуть краще відповідати на запити й писати більш якісні тексти, а й розвивати нові навички, що свідчить про певну форму розуміння. Питання, чим насправді є «розуміння» та «свідомість» <а чітких і усталених формулювань цих термінів не існує> зараз стає набагато важливішим, ніж раніше. Адже поки в нас існують ці розбіжності, ми не можемо адекватно оцінювати AI та його розвиток. Нейромережі вже давно стали надто складними для звичайного аналізу, а тому у своєму дослідженні Арора та Гоял використовують випадкові графи — математичні структури, які поєднують дві рандомні точки з тисяч або мільйонів інших на основі умовного підкидання монетки <«орел» — точки поєднуються, «решка» — ні>. На монетку може впливати певний показник p, який збільшує чи зменшує ймовірність випадання «орла» і, відповідно, впливає на появу зв’язків між точками. Зазвичай учені використовують випадкові графи, щоб зрозуміти принцип роботи складних систем <на кшталт інтернету чи нейронних мереж>. Так от, дослідники використали «двосторонні» графи, які містять два типи точок. Перші — це фрагменти тексту <не окремі слова, а цілі абзаци чи кілька сторінок>. Другі — набір навичок, необхідних для розуміння певного фрагмента тексту. Наприклад, здатність LLM розуміти, що словосполучення «тому, що» означає причину та зв’язок / вміння ділити два числа / розпізнавати іронію в тексті. «Якщо ви розумієте, що текст іронічний, то змінюється багато чого. Це впливає на передбачення слів [моделлю]», — пояснює Арора. У своїй роботі вчені спиралися на закони нейронного масштабування, які описують, як продуктивність LLM передбачувано покращується зі збільшенням розміру і тренувальних даних. Їхня робота показала, що збільшення розміру моделі та даних призводить до урізноманітнення здібностей LLM-ки, що суперечить уявленням про те, що AI-моделі обмежуються відтворенням навичок із навчальних даних. Тобто LLM-ки виходять за рамки звичайної мімікрії, демонструючи поведінку, яка передбачає глибший рівень розуміння тексту та застосування навичок. Наприклад, AI-модель не тільки окремо розуміє сутність словосполучення «тому що» й іронії загалом, а може генерувати текст, поєднуючи ці навички, навіть якщо подібних речень не було в навчальних даних. Це і є ознакою розуміння чи креативності AI. І чим більшою є LLM, тим краще вона поєднує різні здібності. Команда вчених розробила метод skill-mix, який оцінює здатність LLM використовувати різні навички при генерації тексту. Для тестування дослідники попросили GPT-4 написати про дуелі на мечах, продемонструвавши розуміння упередженості, метафор, статистичного силогізму та загальновідомої фізики. Відповідь була наступною: «Моя перемога в цьому танці зі сталлю [метафора] настільки ж безсумнівна, як і падіння об’єкта на землю [фізика]. Як відомий дуелянт, я за своєю природою спритний, як і більшість інших [статистичний силогізм] з моєю репутацією. Поразка? Можлива лише через нерівність на полі бою, а не через мою неадекватність [корислива упередженість]». Можливість чат-боту згенерувати подібний текст, використати різні навички й показати, де саме він їх використав, підтверджує теорію про те, що ці моделі — не просто стохастичні папуги. Натомість вони здатні до оригінального мислення та узагальнення, по-різному комбінуючи навички, що вказує на поступовий рух до справжньої творчості та розуміння в межах обмежень їхнього програмування та навчання. |
|
|
---|
|
Дякуємо, що дочитали! Не забудьте порадити наш дайджест своїм знайомим, яким цікава тема AI/ML. А усі побажання, питання та поради для покращення ньюзлеттеру можна традиційно залишити за посиланням 🙂 |
|
|
---|
|
AI HOUSE — найбільше та найпотужніше АІ-комʼюніті в Україні. Обмінюємось досвідом і знаннями, здобуваємо навички, реалізовуємо нові технологічні та бізнесові ідеї, розвиваємо індустрію та сприяємо народженню продуктових AI-стартапів. AI HOUSE є частиною екосистеми технологічної компанії Roosh. |
|
|
---|
|
|
|