xAI lanserte Grok-1.5V, sin første multimodale modell som nå også behandler bilder.
xAI
Elon Musks oppstartsbedrift xAI har kunngjort lanseringen av sin første multimodale modell kalt Grok-1.5 Vision, eller Grok-1.5V. I motsetning til tidligere versjoner forstår denne modellen ikke bare tekst, men er også i stand til å behandle visuelt innhold, inkludert dokumenter, diagrammer, grafer, skjermbilder og bilder.
Dette er hva vi vet
Ifølge xAI konkurrerer Grok-1.5V med avanserte multimodale modeller på ulike områder som tverrfaglig resonnering og dokumentforståelse. Selskapet viste sju eksempler som demonstrerte modellens evner, fra å konvertere en skisse til kode til å lage et eventyr ut fra en barnetegning.
Sammenligning av ytelsen til xAIs Grok-1.5V med lignende modeller
xAI har testet Grok-1.5V mot tilsvarende modeller som GPT-4V og Claude 3, og hevder at den multimodale modellen utkonkurrerer konkurrentene, spesielt i den nye RealWorldQA-referansen, som er utviklet for å vurdere forståelsen av den virkelige romlige verden.
Grok-1.5V-resultater i RealWorldQA-benchmarken
Lanseringen av Grok-1.5V kom kort tid etter at xAI lanserte chatboten Grok med åpen kildekode i november 2023. Ilon Musks selskap fortsetter å forbedre sin AI-utvikling for å kunne konkurrere med markedsledere som OpenAI. Når det er sagt, har Grok tidligere hatt problemer med å lære brukerne å oppføre seg ulovlig.
I løpet av de kommende månedene lover xAI å gjøre "betydelige" oppdateringer av Grok AIs multimodale forståelse og informasjonsgenerering.
Kilde: VentureBeat: VentureBeat