Investigadores de Apple desarrollan un avanzado sistema de IA para mejorar los asistentes de voz

Por: Bohdan Kaminskyi | 03.04.2024, 00:22

Jimmy Jin/Unsplash.

Un equipo de investigadores de Apple ha presentado un nuevo sistema de inteligencia artificial llamado ReALM (Reference Resolution As Language Modeling). Es capaz de entender referencias ambiguas a objetos en la pantalla, así como tener en cuenta los antecedentes conversacionales y contextuales, lo que permite una interacción más natural con los asistentes de voz.

Esto es lo que sabemos

ReALM utiliza grandes modelos lingüísticos para transformar la compleja tarea de resolver referencias en pantalla en una tarea de modelado lingüístico. Este enfoque ha demostrado un aumento significativo del rendimiento con respecto a los métodos existentes.

"Ser capaz de entender el contexto, incluidas las referencias, es esencial para un asistente conversacional", señalan los investigadores de Apple. Demostraron que ReALM supera incluso a GPT-4 en esta tarea.

Una innovación clave de ReALM es la reconstrucción de la pantalla en una representación textual que transmite la disposición visual y la ubicación de los objetos. Esto, combinado con el ajuste fino de los modelos lingüísticos, ha proporcionado mejoras significativas en la resolución de referencias en pantalla.


ReALM entiende las referencias a objetos en pantalla, lo que permite una interacción más natural con los asistentes de voz.

La investigación pone de relieve el potencial de los modelos lingüísticos especializados para resolver problemas específicos de los sistemas de producción en los que resulta difícil utilizar enormes modelos integrales. La publicación de Apple indica que sigue invirtiendo en mejorar la usabilidad de Siri y otros productos.

Sin embargo, los autores advierten de que los análisis automatizados de pantallas tienen limitaciones. Es probable que las tareas visuales más complejas requieran visión por ordenador y enfoques multimodales.

Mientras sus competidores adoptan agresivamente la IA generativa, Apple intenta acortar distancias en este campo en rápida evolución. Se espera que la empresa desvele nuevas funciones basadas en grandes modelos lingüísticos e inteligencia artificial en la próxima conferencia WWDC.

Fuente: VentureBeat