xAI lanserte Grok-1.5V, sin første multimodale modell som nå også behandler bilder.

Av: Bohdan Kaminskyi | 16.04.2024, 19:33

xAI

Elon Musks oppstartsbedrift xAI har kunngjort lanseringen av sin første multimodale modell kalt Grok-1.5 Vision, eller Grok-1.5V. I motsetning til tidligere versjoner forstår denne modellen ikke bare tekst, men er også i stand til å behandle visuelt innhold, inkludert dokumenter, diagrammer, grafer, skjermbilder og bilder.

Dette er hva vi vet

Ifølge xAI konkurrerer Grok-1.5V med avanserte multimodale modeller på ulike områder som tverrfaglig resonnering og dokumentforståelse. Selskapet viste sju eksempler som demonstrerte modellens evner, fra å konvertere en skisse til kode til å lage et eventyr ut fra en barnetegning.

Sammenligning av ytelsen til xAIs Grok-1.5V med lignende modeller

xAI har testet Grok-1.5V mot tilsvarende modeller som GPT-4V og Claude 3, og hevder at den multimodale modellen utkonkurrerer konkurrentene, spesielt i den nye RealWorldQA-referansen, som er utviklet for å vurdere forståelsen av den virkelige romlige verden.

Grok-1.5V-resultater i RealWorldQA-benchmarken

Lanseringen av Grok-1.5V kom kort tid etter at xAI lanserte chatboten Grok med åpen kildekode i november 2023. Ilon Musks selskap fortsetter å forbedre sin AI-utvikling for å kunne konkurrere med markedsledere som OpenAI. Når det er sagt, har Grok tidligere hatt problemer med å lære brukerne å oppføre seg ulovlig.

I løpet av de kommende månedene lover xAI å gjøre "betydelige" oppdateringer av Grok AIs multimodale forståelse og informasjonsgenerering.

Kilde: VentureBeat: VentureBeat