OpenAI lanserer gratis ChatGPT-4o som kan snakke, le, synge og se
Den 13. mai kunngjorde OpenAI lanseringen av en ny versjon av ChatGPT-4o, som ifølge dem selv "vil gjøre interaksjon mellom menneske og datamaskin enda mer naturlig". Det nye nevrale nettverket aksepterer alle kombinasjoner av tekst, lyd og bilder og genererer svar i alle disse formatene. Ifølge selskapet gjenkjenner AI-en følelser, kan avbryte midt i en setning og svarer nesten like raskt som et menneske.
Bokstaven "o" i ChatGPT-4o's navn etterligner ikke bare 40, men står også for omni, som betyr omfattende eller altetende. CTO i OpenAI Mira Murati uttalte at ChatGpt-4o vil være en kunstig intelligens på ChatGPT-4-nivå for alle, selv brukere uten et betalt abonnement.
På presentasjonen løste ChatGPT-4o en lineær ligning skrevet på papir og ga også dype pustetips ved ganske enkelt å lytte til pustelyder.
De tidligere språkmodellene ChatGpt-3.5 og ChatGPT-4 kunne også kommunisere med stemmen, men da ble stemmen først oversatt til tekst og deretter behandlet. Med andre ord behandlet først ett nevralt nettverk stemmen, og deretter behandlet et annet nettverk teksten. Nå behandler det samme nevrale nettverket både lyden og informasjonen den bærer på. Med denne tilnærmingen prøver OpenAI å få mer kontekst fra det tilgjengelige materialet, for eksempel den emosjonelle tilstanden til samtalepartneren. Det går også mye raskere.