Apple hat das multimodale Modell MM1 für die Interpretation von Bildern und Texten entwickelt.

Von: Bohdan Kaminskyi | 19.03.2024, 22:58

Zhiyue/Unsplash.

Apple-Forscher haben eine neue künstliche Intelligenz namens MM1 entwickelt, die sowohl Bild- als auch Textdaten interpretieren kann. Das Unternehmen hat auf arXiv ein Papier veröffentlicht, in dem eine Familie von multimodalen Modellen (MLLM) und ihre Testergebnisse beschrieben werden.

Was bekannt ist

Den Entwicklern zufolge hat die MM1-Familie multimodaler Modelle durch die Integration von Text- und Bilddaten erhebliche Fortschritte bei der Erstellung von Bildunterschriften, der Beantwortung visueller Fragen und bei Suchanfragen erzielt. Einige dieser Modelle umfassen bis zu 30 Milliarden Parameter.

Die Modelle verwenden Datensätze, die aus beschrifteten Bildern, Bilddokumenten und reinem Text bestehen. Die Forscher behaupten, dass MM1 Objekte zählen, sie in Bildern identifizieren und den "gesunden Menschenverstand" nutzen kann, um den Benutzern nützliche Informationen zu liefern.

Darüber hinaus ist MLLM in der Lage, kontextbezogen zu lernen, d. h. Wissen aus dem aktuellen Dialog zu nutzen, anstatt jedes Mal bei Null anzufangen. Wenn beispielsweise ein Bild einer Speisekarte hochgeladen wird, kann das Modell anhand der angezeigten Preise die Kosten für Getränke für eine Gruppe berechnen.

Für diejenigen, die nicht Bescheid wissen

Während über große Sprachmodelle (LLMs) in der Presse viel berichtet wurde, hat Apple beschlossen, nicht auf die Entwicklung von Drittanbietern zurückzugreifen und sich stattdessen auf den Aufbau eines eigenen LLM der nächsten Generation mit multimodalen Fähigkeiten zu konzentrieren.

Multimodale KI kombiniert und verarbeitet verschiedene Arten von Eingabedaten wie visuelle, akustische und textuelle Informationen. Dadurch können die Systeme komplexe Daten besser verstehen und eine genauere und kontextbezogene Interpretation liefern als unimodale Modelle.

Quelle: TechXplore