xAI stellte Grok-1.5V vor, sein erstes multimodales Modell, das nun auch Bilder verarbeitet

Von: Bohdan Kaminskyi | 16.04.2024, 19:33

xAI

Elon Musks Startup xAI hat die Veröffentlichung seines ersten multimodalen Modells namens Grok-1.5 Vision, oder Grok-1.5V, angekündigt. Im Gegensatz zu früheren Versionen versteht dieses Modell nicht nur Text, sondern ist auch in der Lage, visuelle Inhalte wie Dokumente, Diagramme, Grafiken, Screenshots und Fotos zu verarbeiten.

Was bekannt ist

Laut xAI konkurriert Grok-1.5V mit fortgeschrittenen multimodalen Modellen in verschiedenen Bereichen wie interdisziplinärem Denken und Dokumentenverständnis. Das Unternehmen zeigte sieben Beispiele, die die Fähigkeiten des Modells demonstrieren, von der Umwandlung einer Skizze in Code bis zur Erstellung eines Märchens aus einer Kinderzeichnung.

Vergleich der Leistung von xAIs Grok-1.5V mit ähnlichen Modellen

xAI hat das Grok-1.5V mit ähnlichen Modellen wie dem GPT-4V und Claude 3 verglichen und behauptet, dass sein multimodales Modell besser abschneidet als die Konkurrenz, insbesondere im neuen RealWorldQA-Benchmark, der das Verständnis der realen räumlichen Welt bewertet.

Grok-1.5V Ergebnisse im RealWorldQA-Benchmark

Die Veröffentlichung von Grok-1.5V erfolgte kurz nach der Open-Source-Veröffentlichung des Grok-Chatbots, den xAI im November 2023 vorstellte. Das Unternehmen von Ilon Musk arbeitet weiter an der Verbesserung seiner KI-Entwicklung, um mit Marktführern wie OpenAI konkurrieren zu können. Allerdings hatte Grok in der Vergangenheit Probleme damit, Nutzern illegales Verhalten beizubringen.

xAI verspricht, in den kommenden Monaten "signifikante" Aktualisierungen der multimodalen Verständnis- und Informationsgenerierungsfunktionen von Grok AI vorzunehmen.

Quelle: VentureBeat