Apple розробила мультимодальну модель MM1 для інтерпретації зображень і тексту

Автор: Богдан Камінський | 19 березня 2024, 22:58

Zhiyue/Unsplash

Дослідники Apple створили новий штучний інтелект MM1, здатний інтерпретувати як зображення, так і текстові дані. Компанія опублікувала документ на arXiv, що описує сімейство мультимодальних моделей (MLLM) і результати їх тестування.

Що відомо

За даними розробників, сімейство мультимодальних моделей MM1 досягло значних успіхів у завданнях створення підписів до зображень, візуальної відповіді на запитання і пошукових запитів шляхом інтеграції тексту і графічних даних. Деякі з них включають до 30 млрд параметрів.

Моделі використовують набори даних, що складаються із зображень із підписами, документів із зображеннями та чистого тексту. Дослідники стверджують, що MM1 може підраховувати об'єкти, ідентифікувати їх на картинках і використовувати "здоровий глузд" для надання користувачам корисної інформації.

Крім того, MLLM здатна до контекстного навчання, використовуючи знання з поточного діалогу, а не починаючи з нуля щоразу. Як приклад наводиться завантаження зображення з меню, після чого модель може розрахувати вартість напоїв для групи, виходячи із зазначених цін.

Для тих, хто не в курсі

У той час як великі мовні моделі (LLM) отримали широке висвітлення в пресі, Apple вирішила не використовувати розробки сторонніх компаній, а зосередитися на створенні власної LLM нового покоління з мультимодальними можливостями.

Мультимодальний ШІ об'єднує та обробляє різні типи вхідних даних, такі як візуальна, аудіо та текстова інформація. Це дає змогу системам краще розуміти складні дані й давати більш точну і контекстну інтерпретацію, ніж одномодальні моделі.

Джерело: TechXplore