Apple разработала мультимодальную модель MM1 для интерпретации изображений и текста

Автор: Богдан Каминский, 19 марта 2024, 22:58

Zhiyue/Unsplash

Исследователи Apple создали новый искусственный интеллект MM1, способный интерпретировать как изображения, так и текстовые данные. Компания опубликовала документ на arXiv, описывающий семейство мультимодальных моделей (MLLM) и результаты их тестирования.

Что известно

По данным разработчиков, семейство мультимодальных моделей MM1 достигло значительных успехов в задачах создания подписей к изображениям, визуального ответа на вопросы и поисковых запросов путем интеграции текста и графических данных. Некоторые из них включают до 30 млрд параметров.

Модели используют наборы данных, состоящие из изображений с подписями, документов с изображениями и чистого текста. Исследователи утверждают, что MM1 может подсчитывать объекты, идентифицировать их на картинках и использовать “здравый смысл” для предоставления пользователям полезной информации.

Кроме того, MLLM способна к контекстному обучению, используя знания из текущего диалога, а не начиная с нуля каждый раз. В качестве примера приводится загрузка изображения с меню, после чего модель может рассчитать стоимость напитков для группы исходя из указанных цен.

Для тех, кто не в курсе

В то время как большие языковые модели (LLM) получили широкое освещение в прессе, Apple решила не использовать разработки сторонних компаний, а сосредоточиться на создании собственной LLM нового поколения с мультимодальными возможностями.

Мультимодальный ИИ объединяет и обрабатывает различные типы входных данных, такие как визуальная, аудио и текстовая информация. Это позволяет системам лучше понимать сложные данные и давать более точную и контекстную интерпретацию, чем одномодальные модели.

Источник: TechXplore