Apple a développé le modèle multimodal MM1 pour l'interprétation des images et des textes.

Par: Bohdan Kaminskyi | 19.03.2024, 21:58

Zhiyue/Unsplash.

Des chercheurs d'Apple ont créé une nouvelle intelligence artificielle, baptisée MM1, capable d'interpréter à la fois des images et des textes. L'entreprise a publié sur arXiv un article décrivant une famille de modèles multimodaux (MLLM) et les résultats de leurs tests.

Ce que nous savons

Selon les développeurs, la famille de modèles multimodaux MM1 a permis des avancées significatives dans les tâches de sous-titrage d'images, de réponse à des questions visuelles et de requêtes de recherche en intégrant des données textuelles et des données d'images. Certains d'entre eux comprennent jusqu'à 30 milliards de paramètres.

Les modèles utilisent des ensembles de données constitués d'images légendées, de documents d'images et de texte brut. Les chercheurs affirment que MM1 est capable de compter des objets, de les identifier dans des images et d'utiliser le "bon sens" pour fournir aux utilisateurs des informations utiles.

En outre, la MLLM est capable d'apprentissage contextuel, c'est-à-dire qu'elle utilise les connaissances du dialogue en cours au lieu de repartir de zéro à chaque fois. Par exemple, une image d'un menu est téléchargée et le modèle peut alors calculer le coût des boissons pour un groupe sur la base des prix affichés.

Flashback

Alors que les grands modèles de langage (LLM) ont fait l'objet d'une grande couverture médiatique, Apple a décidé de ne pas recourir au développement par des tiers et de se concentrer sur la construction de son propre LLM de nouvelle génération, doté de capacités multimodales.

L'IA multimodale combine et traite différents types de données d'entrée, telles que des informations visuelles, audio et textuelles. Cela permet aux systèmes de mieux comprendre les données complexes et de fournir une interprétation plus précise et contextuelle que les modèles unimodaux.

Source : TechXplore TechXplore