Apple onderzoekers ontwikkelen een geavanceerd AI-systeem om spraakassistenten te verbeteren

Via: Bohdan Kaminskyi | 03.04.2024, 00:22

Jimmy Jin/Unsplash.

Een team van Apple onderzoekers heeft een nieuw kunstmatig intelligentiesysteem onthuld met de naam ReALM (Reference Resolution As Language Modeling). Het is in staat om dubbelzinnige verwijzingen naar objecten op het scherm te begrijpen, maar ook om rekening te houden met gespreks- en contextuele achtergronden, waardoor een natuurlijkere interactie met spraakassistenten mogelijk wordt.

Dit is wat we weten

ReALM gebruikt grote taalmodellen om de complexe taak van het oplossen van schermverwijzingen om te zetten in een taalmodelleringstaak. Deze aanpak heeft significante prestatieverbeteringen laten zien ten opzichte van bestaande methoden.

"Context kunnen begrijpen, inclusief referenties, is essentieel voor een conversatie-assistent", merkten de onderzoekers van Apple op. Ze toonden aan dat ReALM zelfs GPT-4 voor deze taak overtreft.

Een belangrijke innovatie van ReALM is de reconstructie van het scherm in een tekstuele weergave die de visuele lay-out en locatie van objecten weergeeft. Dit, in combinatie met fijnafstemming van taalmodellen, heeft gezorgd voor significante verbeteringen in de schermreferentieresolutie.


ReALM begrijpt verwijzingen naar objecten op het scherm, waardoor een natuurlijkere interactie met spraakassistenten mogelijk wordt.

Het onderzoek benadrukt het potentieel van gespecialiseerde taalmodellen om specifieke problemen op te lossen in productiesystemen waar grote end-to-end modellen moeilijk te gebruiken zijn. De publicatie van Apple geeft aan dat het bedrijf blijft investeren in het verbeteren van de bruikbaarheid van Siri en andere producten.

De auteurs waarschuwen echter dat geautomatiseerde schermanalyses beperkingen hebben. Voor complexere visuele taken zijn waarschijnlijk computervisie en multimodale benaderingen nodig.

Terwijl concurrenten op agressieve wijze generatieve AI toepassen, probeert Apple de kloof op dit snel evoluerende gebied te dichten. Verwacht wordt dat het bedrijf op de komende WWDC-conferentie nieuwe functies zal onthullen die gebaseerd zijn op grote taalmodellen en kunstmatige intelligentie.

Bron: VentureBeat