Google annonce le nouveau modèle PaliGemma 2 pour le traitement d'images et de textes

Par: Nastya Bobkova | 05.12.2024, 22:38

Après l'annonce de Gemma 2 lors de la I/O 2024 en mai, Google présente une nouvelle version du modèle PaliGemma 2, un modèle open source pour le traitement d'images et de textes.

Ce que nous savons

La première version de PaliGemma a été lancée en mai et a été utilisée pour des tâches telles que l'ajout de légendes aux images et aux vidéos, la reconnaissance de texte dans les images, la détection d'objets, leur division en parties et la réponse à des questions sur le contenu visuel.

PaliGemma 2 offre une fonction de "légende longue" qui permet de générer des descriptions détaillées d'images, en tenant compte des actions, des émotions et de l'atmosphère générale de la scène. Le modèle est disponible en plusieurs variantes avec des paramètres 3B, 10B, 28B et différentes résolutions.

La reconnaissance de texte et l'analyse de la structure des tableaux dans les documents ont également été améliorées. PaliGemma 2 montre d'excellents résultats dans la reconnaissance de formules chimiques, de partitions musicales, de raisonnements spatiaux et dans la création de rapports basés sur des images radiographiques.

Google précise que PaliGemma 2 peut être facilement remplacé par une version antérieure du modèle, avec des améliorations de performance sans qu'il soit nécessaire de modifier le code de manière importante.

Les modèles et le code de PaliGemma 2 sont déjà disponibles sur Kaggle, Hugging Face et Ollama.

Source : 9to5Google