Apple ontwikkelde het MM1 multimodale model voor beeld- en tekstinterpretatie

Via: Bohdan Kaminskyi | 19.03.2024, 22:58

Zhiyue/Unsplash.

Onderzoekers van Apple hebben een nieuwe kunstmatige intelligentie genaamd MM1 gemaakt die zowel beeld- als tekstgegevens kan interpreteren. Het bedrijf publiceerde een artikel op arXiv waarin een familie van multimodale modellen (MLLM) en hun testresultaten worden beschreven.

Dit is wat we weten

Volgens de ontwikkelaars heeft de MM1-familie van multimodale modellen aanzienlijke vooruitgang geboekt op het gebied van bijschriften bij afbeeldingen, het beantwoorden van visuele vragen en zoekopdrachten door tekst- en beeldgegevens te integreren. Sommige modellen bevatten tot wel 30 miljard parameters.

De modellen gebruiken datasets die bestaan uit afbeeldingen met bijschriften, afbeeldingsdocumenten en platte tekst. De onderzoekers beweren dat MM1 objecten kan tellen, ze in afbeeldingen kan identificeren en "gezond verstand" kan gebruiken om gebruikers van nuttige informatie te voorzien.

Daarnaast is MLLM in staat om contextueel te leren, waarbij kennis uit de huidige dialoog wordt gebruikt in plaats van elke keer opnieuw te beginnen. Er wordt bijvoorbeeld een afbeelding van een menu geüpload en het model kan vervolgens de kosten van drankjes voor een groep berekenen op basis van de getoonde prijzen.

Flashback

Hoewel grote taalmodellen (LLM's) veel aandacht hebben gekregen in de pers, heeft Apple besloten geen gebruik te maken van de ontwikkeling door derden en zich in plaats daarvan te richten op het bouwen van zijn eigen volgende generatie LLM met multimodale mogelijkheden.

Multimodale AI combineert en verwerkt verschillende soorten invoergegevens, zoals visuele, audio- en tekstuele informatie. Hierdoor kunnen systemen complexe gegevens beter begrijpen en een nauwkeurigere en contextuele interpretatie bieden dan unimodale modellen.

Bron: TechXplore