xAI представила Grok-1.5V — свою первую мультимодальную модель, которая теперь обрабатывает и изображения
xAI
Стартап Илона Маска (Elon Musk) xAI анонсировал выход своей первой мультимодальной модели под названием Grok-1.5 Vision, или Grok-1.5V. В отличие от предыдущих версий, эта модель не только понимает текст, но и способна обрабатывать визуальный контент, включая документы, диаграммы, графики, скриншоты и фотографии.
Что известно
По словам xAI, Grok-1.5V конкурирует с передовыми мультимодальными моделями в различных областях, таких как междисциплинарные рассуждения и понимание документов. Компания продемонстрировала семь примеров, показывающих возможности модели - от преобразования наброска в код до создания сказки из детского рисунка.
Сравнение производительности Grok-1.5V от xAI с аналогичными моделями
Тестируя Grok-1.5V в сравнении с аналогами вроде GPT-4V и Claude 3, xAI утверждает, что её мультимодальная модель превосходит конкурентов, особенно в новом бенчмарке RealWorldQA, разработанном для оценки понимания реального пространственного мира.
Результаты работы Grok-1.5V в бенчмарке RealWorldQA
Выпуск Grok-1.5V последовал вскоре после открытого исходного кода чат-бота Grok, представленного xAI в ноябре 2023 года. Компания Илона Маска продолжает совершенствовать свои ИИ-разработки, чтобы конкурировать с лидерами рынка, такими как OpenAI. При этом ранее Grok уже сталкивался с проблемами, связанными с обучением пользователей противозаконным действиям.
В ближайшие месяцы xAI обещает внести "значительные" обновления в мультимодальные функции понимания и генерации информации Grok AI.
Источник: VentureBeat