I ricercatori Apple stanno sviluppando un sistema avanzato di intelligenza artificiale per migliorare gli assistenti vocali
Jimmy Jin/Unsplash.
Un team di ricercatori Apple ha presentato un nuovo sistema di intelligenza artificiale chiamato ReALM (Reference Resolution As Language Modeling). È in grado di comprendere i riferimenti ambigui agli oggetti sullo schermo e di tenere conto del contesto conversazionale e contestuale, consentendo un'interazione più naturale con gli assistenti vocali.
Ecco cosa sappiamo
ReALM utilizza modelli linguistici di grandi dimensioni per trasformare il complesso compito di risolvere i riferimenti allo schermo in un compito di modellazione linguistica. Questo approccio ha dimostrato un significativo aumento delle prestazioni rispetto ai metodi esistenti.
"La capacità di comprendere il contesto, compresi i riferimenti, è essenziale per un assistente conversazionale", hanno sottolineato i ricercatori Apple. Hanno dimostrato che ReALM supera persino GPT-4 in questo compito.
Un'innovazione chiave di ReALM è la ricostruzione dello schermo in una rappresentazione testuale che trasmette la disposizione visiva e la posizione degli oggetti. Questo, unito alla messa a punto dei modelli linguistici, ha permesso di ottenere miglioramenti significativi nella risoluzione dei riferimenti allo schermo.
ReALM comprende i riferimenti agli oggetti sullo schermo, consentendo un'interazione più naturale con gli assistenti vocali.
La ricerca evidenzia il potenziale dei modelli linguistici specializzati per risolvere problemi specifici nei sistemi di produzione in cui è difficile utilizzare modelli enormi end-to-end. La pubblicazione di Apple segnala il continuo investimento nel miglioramento dell'usabilità di Siri e di altri prodotti.
Tuttavia, gli autori avvertono che le analisi automatizzate delle schermate hanno dei limiti. Compiti visivi più complessi richiederanno probabilmente la computer vision e approcci multimodali.
Mentre i concorrenti stanno adottando aggressivamente l'IA generativa, Apple sta cercando di colmare il divario in questo campo in rapida evoluzione. Alla prossima conferenza WWDC l'azienda dovrebbe presentare nuove funzionalità basate su modelli linguistici di grandi dimensioni e sull'intelligenza artificiale.
Fonte: VentureBeat