OpenAI lanserer nye o3- og o3-mini-resonneringsmodeller som kan tenke på menneskelig nivå
OpenAIs administrerende direktør Sam Altman kunngjorde nye o3- og o3-mini-modeller for kunstig intelligens på den siste dagen av 12 Days of OpenAI-arrangementet, som bygger på de tidligere o1-modellene. Disse modellene bruker en "privat tankekjede"-metode som gjør at de kan planlegge svarene sine på forhånd, noe som kalles simulert resonnering (SR).
Dette er hva vi vet
o3-modellen oppnådde rekordresultater i ARC-AGI-referansen, med en poengsum på 75,7 % under lave beregningsressurser og 87,5 % under høye beregningsressurser, noe som er sammenlignbart med menneskelig ytelse. o3 oppnådde også 96,7 % på American Invitational Maths 2024 og 87,7 % på GPQA Diamond-testen, som omfatter spørsmål på bachelornivå innen biologi, fysikk og kjemi. I EpochAIs Frontier Math-referansetest løste o3 25,2 prosent av oppgavene, mens ingen andre modeller kom over 2 prosent.
o3-mini-modellen har en funksjon for adaptiv tenketid, og tilbyr lav, middels og høy prosesseringshastighet. OpenAI hevder at høyere beregningsinnstillinger gir bedre resultater. Disse modellene vil være tilgjengelige for testing av sikkerhetsforskere. o3-mini skal etter planen lanseres i slutten av januar, og o3 vil lanseres kort tid etter.
Kilde: OpenAI OpenAI