Apple разработала мультимодальную модель MM1 для интерпретации изображений и текста
Zhiyue/Unsplash
Исследователи Apple создали новый искусственный интеллект MM1, способный интерпретировать как изображения, так и текстовые данные. Компания опубликовала документ на arXiv, описывающий семейство мультимодальных моделей (MLLM) и результаты их тестирования.
Что известно
По данным разработчиков, семейство мультимодальных моделей MM1 достигло значительных успехов в задачах создания подписей к изображениям, визуального ответа на вопросы и поисковых запросов путем интеграции текста и графических данных. Некоторые из них включают до 30 млрд параметров.
Модели используют наборы данных, состоящие из изображений с подписями, документов с изображениями и чистого текста. Исследователи утверждают, что MM1 может подсчитывать объекты, идентифицировать их на картинках и использовать “здравый смысл” для предоставления пользователям полезной информации.
Кроме того, MLLM способна к контекстному обучению, используя знания из текущего диалога, а не начиная с нуля каждый раз. В качестве примера приводится загрузка изображения с меню, после чего модель может рассчитать стоимость напитков для группы исходя из указанных цен.
Для тех, кто не в курсе
В то время как большие языковые модели (LLM) получили широкое освещение в прессе, Apple решила не использовать разработки сторонних компаний, а сосредоточиться на создании собственной LLM нового поколения с мультимодальными возможностями.
Мультимодальный ИИ объединяет и обрабатывает различные типы входных данных, такие как визуальная, аудио и текстовая информация. Это позволяет системам лучше понимать сложные данные и давать более точную и контекстную интерпретацию, чем одномодальные модели.
Источник: TechXplore