Apple har utviklet den multimodale modellen MM1 for bilde- og teksttolkning.

Av: Bohdan Kaminskyi | 19.03.2024, 23:02
Apple har utviklet den multimodale modellen MM1 for bilde- og teksttolkning.
Zhiyue/Unsplash.

Apple-forskere har utviklet en ny kunstig intelligens kalt MM1 som kan tolke både bilde- og tekstdata. Selskapet har publisert en artikkel på arXiv som beskriver en familie av multimodale modeller (MLLM) og testresultatene deres.

Dette er hva vi vet

Ifølge utviklerne har MM1-familien av multimodale modeller gjort betydelige fremskritt når det gjelder bildetekster, visuelle spørsmål og søk ved å integrere tekst- og bildedata. Noen av dem inneholder opptil 30 milliarder parametere.

Modellene bruker datasett bestående av bildetekster, bildedokumenter og ren tekst. Forskerne hevder at MM1 kan telle objekter, identifisere dem i bilder og bruke "sunn fornuft" for å gi brukerne nyttig informasjon.

I tillegg er MLLM i stand til å lære kontekstuelt ved å bruke kunnskap fra den aktuelle dialogen i stedet for å starte fra bunnen av hver gang. For eksempel kan et bilde fra en meny lastes opp, og modellen kan deretter beregne prisen på drinker for en gruppe basert på prisene som vises.

Tilbakeblikk

Selv om store språkmodeller (LLM) har fått mye presseomtale, har Apple bestemt seg for ikke å bruke tredjepartsutvikling og i stedet fokusere på å bygge sin egen neste generasjons LLM med multimodale funksjoner.

Multimodal AI kombinerer og behandler ulike typer inndata, for eksempel visuell informasjon, lyd og tekst. Dette gjør at systemene bedre kan forstå komplekse data og gi en mer nøyaktig og kontekstuell tolkning enn unimodale modeller.

Kilde: TechXplore TechXplore