Apple desarrolló el modelo multimodal MM1 para la interpretación de imágenes y textos

Por: Bohdan Kaminskyi | 19.03.2024, 22:58

Zhiyue/Unsplash.

Los investigadores de Apple han creado una nueva inteligencia artificial llamada MM1 que puede interpretar tanto datos de imagen como de texto. La compañía ha publicado un artículo en arXiv en el que describe una familia de modelos multimodales (MLLM) y los resultados de sus pruebas.

Esto es lo que sabemos

Según los desarrolladores, la familia MM1 de modelos multimodales ha logrado avances significativos en las tareas de subtitulado de imágenes, respuesta a preguntas visuales y consultas de búsqueda mediante la integración de datos de texto e imagen. Algunos de ellos incluyen hasta 30.000 millones de parámetros.

Los modelos utilizan conjuntos de datos compuestos por imágenes subtituladas, documentos de imagen y texto sin formato. Los investigadores afirman que MM1 puede contar objetos, identificarlos en imágenes y utilizar el "sentido común" para proporcionar a los usuarios información útil.

Además, MLLM es capaz de aprender en contexto, utilizando los conocimientos del diálogo actual en lugar de empezar de cero cada vez. Por ejemplo, si se carga una imagen de un menú, el modelo puede calcular el coste de las bebidas para un grupo basándose en los precios mostrados.

Flashback

Aunque los grandes modelos lingüísticos (LLM) han recibido mucha cobertura en la prensa, Apple ha decidido no recurrir al desarrollo de terceros y centrarse en construir su propio LLM de próxima generación con capacidades multimodales.

La IA multimodal combina y procesa distintos tipos de datos de entrada, como información visual, sonora y textual. Esto permite a los sistemas comprender mejor los datos complejos y ofrecer una interpretación más precisa y contextual que los modelos unimodales.

Fuente: TechXplore