Google kondigt nieuw PaliGemma 2-model aan voor beeld- en tekstverwerking

Via: Nastya Bobkova | 05.12.2024, 23:45
Ontdek de nieuwste functies van PaliGemma 2: een duik in de technologie van de volgende generatie PaliGemma 2. Bron: 9to5Google

Na de aankondiging van Gemma 2 tijdens I/O 2024 in mei, introduceert Google een nieuwe versie van het PaliGemma 2-model, een open source model voor beeld- en tekstverwerking.

Dit is wat we weten

De eerste versie van PaliGemma werd in mei gelanceerd en werd gebruikt voor taken zoals het toevoegen van bijschriften aan afbeeldingen en video's, het herkennen van tekst in afbeeldingen, het detecteren van objecten, het opsplitsen in delen en het beantwoorden van vragen over visuele inhoud.

PaliGemma 2 biedt een "lang bijschrift" functie waarmee je gedetailleerde beschrijvingen van afbeeldingen kunt genereren, rekening houdend met acties, emoties en de algehele sfeer van de scène. Het model is beschikbaar in verschillende varianten met 3B, 10B, 28B parameters en verschillende resoluties.

Tekstherkenning en analyse van tabelstructuren in documenten zijn ook verbeterd. PaliGemma 2 laat uitstekende resultaten zien bij het herkennen van chemische formules, muziekpartituren, ruimtelijk redeneren en het maken van rapporten op basis van röntgenfoto's.

Google merkt op dat PaliGemma 2 eenvoudig vervangen kan worden door een eerdere versie van het model, met prestatieverbeteringen zonder dat er grote veranderingen in de code nodig zijn.

PaliGemma 2 modellen en code zijn al beschikbaar op Kaggle, Hugging Face en Ollama.

Bron: 9to5Google