Google kündigt das neue Modell PaliGemma 2 für die Bild- und Textverarbeitung an
Nach der Ankündigung von Gemma 2 auf der I/O 2024 im Mai stellt Google eine neue Version des PaliGemma 2-Modells vor, ein Open-Source-Modell für die Bild- und Textverarbeitung.
Was bekannt ist
Die erste Version von PaliGemma wurde im Mai vorgestellt und wurde für Aufgaben wie das Hinzufügen von Bildunterschriften zu Bildern und Videos, das Erkennen von Text in Bildern, das Erkennen von Objekten, das Zerlegen von Objekten in Teile und das Beantworten von Fragen zu visuellen Inhalten verwendet.
PaliGemma 2 bietet eine Funktion für lange Bildunterschriften, mit der detaillierte Bildbeschreibungen unter Berücksichtigung von Handlungen, Emotionen und der Gesamtatmosphäre der Szene erstellt werden können. Das Modell ist in mehreren Varianten mit den Parametern 3B, 10B, 28B und verschiedenen Auflösungen erhältlich.
Die Texterkennung und die Analyse von Tabellenstrukturen in Dokumenten wurden ebenfalls verbessert. PaliGemma 2 zeigt hervorragende Ergebnisse bei der Erkennung chemischer Formeln, musikalischer Partituren, räumlicher Schlussfolgerungen und der Erstellung von Berichten auf der Grundlage von Röntgenbildern.
Google weist darauf hin, dass PaliGemma 2 problemlos durch eine frühere Version des Modells ersetzt werden kann, wobei die Leistung verbessert wird, ohne dass größere Codeänderungen erforderlich sind.
PaliGemma 2 Modelle und Code sind bereits auf Kaggle, Hugging Face und Ollama verfügbar.
Quelle: 9to5Google