Apple-Forscher entwickeln ein fortschrittliches KI-System zur Verbesserung von Sprachassistenten

Von Bohdan Kaminskyi | 02.04.2024, 23:27
Apple-Forscher entwickeln ein fortschrittliches KI-System zur Verbesserung von Sprachassistenten
Jimmy Jin/Unsplash.

Ein Team von Apple-Forschern hat ein neues System der künstlichen Intelligenz namens ReALM (Reference Resolution As Language Modeling) vorgestellt. Es ist in der Lage, mehrdeutige Verweise auf Objekte auf dem Bildschirm zu verstehen und auch den Gesprächs- und Kontexthintergrund zu berücksichtigen, was eine natürlichere Interaktion mit Sprachassistenten ermöglicht.

Was bekannt ist

ReALM verwendet große Sprachmodelle, um die komplexe Aufgabe der Auflösung von Bildschirmreferenzen in eine Sprachmodellierungsaufgabe umzuwandeln. Dieser Ansatz hat im Vergleich zu bestehenden Methoden erhebliche Leistungssteigerungen gezeigt.

"Die Fähigkeit, den Kontext, einschließlich der Verweise, zu verstehen, ist für einen Gesprächsassistenten unerlässlich", so die Forscher von Apple. Sie haben gezeigt, dass ReALM sogar GPT-4 bei dieser Aufgabe übertrifft.

Eine Schlüsselinnovation von ReALM ist die Rekonstruktion des Bildschirms in eine textuelle Darstellung, die das visuelle Layout und die Position von Objekten vermittelt. In Verbindung mit der Feinabstimmung der Sprachmodelle hat dies zu erheblichen Verbesserungen bei der Auflösung von Bildschirmreferenzen geführt.

Apple-Forscher entwickeln ein fortschrittliches KI-System zur Verbesserung von Sprachassistenten-2
ReALM versteht Verweise auf Bildschirmobjekte und ermöglicht eine natürlichere Interaktion mit Sprachassistenten.

Die Forschungsarbeit unterstreicht das Potenzial spezialisierter Sprachmodelle zur Lösung spezifischer Probleme in Produktionssystemen, bei denen große End-to-End-Modelle nur schwer zu verwenden sind. Die Veröffentlichung von Apple zeigt, dass das Unternehmen weiterhin in die Verbesserung der Benutzerfreundlichkeit von Siri und anderen Produkten investiert.

Die Autoren warnen jedoch davor, dass automatisierte Bildschirmanalysen Grenzen haben. Komplexere visuelle Aufgaben werden wahrscheinlich Computer Vision und multimodale Ansätze erfordern.

Während Konkurrenten aggressiv auf generative KI setzen, versucht Apple, die Lücke in diesem sich schnell entwickelnden Bereich zu schließen. Es wird erwartet, dass das Unternehmen auf der kommenden WWDC-Konferenz neue Funktionen vorstellen wird, die auf umfangreichen Sprachmodellen und künstlicher Intelligenz basieren.

Quelle: VentureBeat