xAI introduceert Grok-1.5V, het eerste multimodale model dat nu ook afbeeldingen verwerkt

Via: Bohdan Kaminskyi | 16.04.2024, 19:33

xAI

Elon Musk's startup xAI heeft de release aangekondigd van zijn eerste multimodale model genaamd Grok-1.5 Vision, of Grok-1.5V. In tegenstelling tot eerdere versies begrijpt dit model niet alleen tekst, maar is het ook in staat om visuele content te verwerken, waaronder documenten, grafieken, screenshots en foto's.

Dit is wat we weten

Volgens xAI concurreert Grok-1.5V met geavanceerde multimodale modellen in verschillende domeinen zoals interdisciplinair redeneren en het begrijpen van documenten. Het bedrijf liet zeven voorbeelden zien die de mogelijkheden van het model demonstreerden, van het omzetten van een schets in code tot het creëren van een sprookje van een kindertekening.


De prestaties van xAI's Grok-1.5V vergelijken met vergelijkbare modellen

xAI heeft de Grok-1.5V getest met vergelijkbare modellen zoals de GPT-4V en Claude 3. xAI beweert dat zijn multimodale model beter presteert dan de concurrentie, vooral in de nieuwe RealWorldQA benchmark, ontworpen om het begrip van de echte ruimtelijke wereld te beoordelen.


Grok-1.5V resultaten in de RealWorldQA benchmark

De release van Grok-1.5V volgde kort na de open source release van de Grok chatbot, onthuld door xAI in november 2023. Het bedrijf van Ilon Musk blijft zijn AI-ontwikkeling verbeteren om te kunnen concurreren met marktleiders zoals OpenAI. Dat gezegd hebbende, Grok heeft eerder problemen gehad met het aanleren van illegaal gedrag aan gebruikers.

xAI belooft de komende maanden "significante" updates uit te voeren voor Grok AI's multimodale begrip en informatiegeneratie.

Bron: VentureBeat