xAI представила Grok-1.5V - свою першу мультимодальну модель, яка тепер обробляє і зображення

Автор: Богдан Камінський | 16 квітня 2024, 19:33

xAI

Стартап Ілона Маска (Elon Musk) xAI анонсував вихід своєї першої мультимодальної моделі під назвою Grok-1.5 Vision, або Grok-1.5V. На відміну від попередніх версій, ця модель не лише розуміє текст, а й здатна обробляти візуальний контент, включно з документами, діаграмами, графіками, скриншотами та фотографіями.

Що відомо

За словами xAI, Grok-1.5V конкурує з передовими мультимодальними моделями в різних сферах, як-от міждисциплінарні міркування і розуміння документів. Компанія продемонструвала сім прикладів, що показують можливості моделі - від перетворення начерку в код до створення казки з дитячого малюнка.


Порівняння продуктивності Grok-1.5V від xAI з аналогічними моделями

Тестуючи Grok-1.5V порівняно з аналогами на кшталт GPT-4V і Claude 3, xAI стверджує, що її мультимодальна модель перевершує конкурентів, особливо в новому бенчмарку RealWorldQA, розробленому для оцінки розуміння реального просторового світу.


Результати роботи Grok-1.5V у бенчмарку RealWorldQA

Випуск Grok-1.5V відбувся незабаром після відкритого вихідного коду чат-бота Grok, представленого xAI в листопаді 2023 року. Компанія Ілона Маска продовжує вдосконалювати свої ШІ-розробки, щоб конкурувати з лідерами ринку, такими як OpenAI. При цьому раніше Grok уже стикався з проблемами, пов'язаними з навчанням користувачів протизаконних дій.

Найближчими місяцями xAI обіцяє внести "значні" оновлення в мультимодальні функції розуміння і генерації інформації Grok AI.

Джерело: VentureBeat