xAI a présenté Grok-1.5V, son premier modèle multimodal qui traite désormais aussi les images.

Par: Bohdan Kaminskyi | 16.04.2024, 18:33

xAI

La startup xAI d'Elon Musk a annoncé la sortie de son premier modèle multimodal appelé Grok-1.5 Vision, ou Grok-1.5V. Contrairement aux versions précédentes, ce modèle ne comprend pas seulement du texte, mais est également capable de traiter du contenu visuel, notamment des documents, des diagrammes, des graphiques, des captures d'écran et des photos.

Ce que nous savons

Selon xAI, Grok-1.5V rivalise avec des modèles multimodaux avancés dans divers domaines tels que le raisonnement interdisciplinaire et la compréhension de documents. L'entreprise a présenté sept exemples démontrant les capacités du modèle, de la conversion d'un schéma en code à la création d'un conte de fées à partir d'un dessin d'enfant.

Comparaison des performances du Grok-1.5V de xAI avec des modèles similaires

En testant le Grok-1.5V par rapport à des modèles similaires tels que le GPT-4V et le Claude 3, xAI affirme que son modèle multimodal surpasse la concurrence, en particulier dans le nouveau benchmark RealWorldQA, conçu pour évaluer la compréhension du monde spatial réel.

Résultats de Grok-1.5V au test de référence RealWorldQA

La sortie de Grok-1.5V a suivi de peu la sortie en open source du chatbot Grok, dévoilé par xAI en novembre 2023. L'entreprise d'Ilon Musk continue d'améliorer le développement de l'IA pour concurrencer les leaders du marché comme OpenAI. Cela dit, Grok a déjà rencontré des problèmes en apprenant aux utilisateurs à adopter des comportements illégaux.

Dans les mois à venir, xAI promet d'apporter des mises à jour "significatives" aux fonctions de compréhension multimodale et de génération d'informations de Grok AI.

Source : xAI : VentureBeat