xAI представила Grok-1.5V — свою первую мультимодальную модель, которая теперь обрабатывает и изображения

Автор: Богдан Каминский, Updated 16 апреля 2024, 19:38

xAI

Стартап Илона Маска (Elon Musk) xAI анонсировал выход своей первой мультимодальной модели под названием Grok-1.5 Vision, или Grok-1.5V. В отличие от предыдущих версий, эта модель не только понимает текст, но и способна обрабатывать визуальный контент, включая документы, диаграммы, графики, скриншоты и фотографии.

Что известно

По словам xAI, Grok-1.5V конкурирует с передовыми мультимодальными моделями в различных областях, таких как междисциплинарные рассуждения и понимание документов. Компания продемонстрировала семь примеров, показывающих возможности модели - от преобразования наброска в код до создания сказки из детского рисунка.

xAI представила Grok-1.5V — свою первую мультимодальную модель, которая теперь обрабатывает и изображения-2

Сравнение производительности Grok-1.5V от xAI с аналогичными моделями

Тестируя Grok-1.5V в сравнении с аналогами вроде GPT-4V и Claude 3, xAI утверждает, что её мультимодальная модель превосходит конкурентов, особенно в новом бенчмарке RealWorldQA, разработанном для оценки понимания реального пространственного мира.

xAI представила Grok-1.5V — свою первую мультимодальную модель, которая теперь обрабатывает и изображения-3

Результаты работы Grok-1.5V в бенчмарке RealWorldQA

Выпуск Grok-1.5V последовал вскоре после открытого исходного кода чат-бота Grok, представленного xAI в ноябре 2023 года. Компания Илона Маска продолжает совершенствовать свои ИИ-разработки, чтобы конкурировать с лидерами рынка, такими как OpenAI. При этом ранее Grok уже сталкивался с проблемами, связанными с обучением пользователей противозаконным действиям.

В ближайшие месяцы xAI обещает внести "значительные" обновления в мультимодальные функции понимания и генерации информации Grok AI.

Источник: VentureBeat

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.

Искусственный интеллект