Les chercheurs d'Apple développent un système d'IA avancé pour améliorer les assistants vocaux

Par: Bohdan Kaminskyi | 02.04.2024, 23:27
Les chercheurs d'Apple développent un système d'IA avancé pour améliorer les assistants vocaux
Jimmy Jin/Unsplash.

Une équipe de chercheurs d'Apple a dévoilé un nouveau système d'intelligence artificielle appelé ReALM (Reference Resolution As Language Modeling). Il est capable de comprendre les références ambiguës aux objets à l'écran, ainsi que de prendre en compte le contexte conversationnel et contextuel, ce qui permet une interaction plus naturelle avec les assistants vocaux.

Voici ce que nous savons

ReALM utilise de grands modèles de langage pour transformer la tâche complexe de résolution des références à l'écran en une tâche de modélisation du langage. Cette approche a permis de réaliser des gains de performance significatifs par rapport aux méthodes existantes.

"La capacité à comprendre le contexte, y compris les références, est essentielle pour un assistant conversationnel", notent les chercheurs d'Apple. Ils ont démontré que ReALM surpasse même GPT-4 dans cette tâche.

L'une des principales innovations de ReALM est la reconstruction de l'écran en une représentation textuelle qui transmet la disposition visuelle et l'emplacement des objets. Cette innovation, combinée à un réglage fin des modèles linguistiques, a permis d'améliorer considérablement la résolution des références à l'écran.

Les chercheurs d'Apple développent un système d'IA avancé pour améliorer les assistants vocaux-2
ReALM comprend les références aux objets à l'écran, ce qui permet une interaction plus naturelle avec les assistants vocaux.

La recherche met en évidence le potentiel des modèles de langage spécialisés pour résoudre des problèmes spécifiques dans les systèmes de production où il est difficile d'utiliser d'énormes modèles de bout en bout. La publication d'Apple témoigne de son investissement continu dans l'amélioration de la convivialité de Siri et d'autres produits.

Les auteurs rappellent toutefois que les analyses d'écran automatisées ont leurs limites. Les tâches visuelles plus complexes nécessiteront probablement des approches multimodales et de vision par ordinateur.

Alors que ses concurrents adoptent de manière agressive l'IA générative, Apple tente de combler son retard dans ce domaine en pleine évolution. L'entreprise devrait dévoiler de nouvelles fonctionnalités basées sur des modèles de langage étendus et sur l'intelligence artificielle lors de la prochaine conférence WWDC.

Source : VentureBeat