Google annuncia il nuovo modello PaliGemma 2 per l'elaborazione di immagini e testi

Di: Nastya Bobkova | 05.12.2024, 23:38

Dopo l'annuncio di Gemma 2 all'I/O 2024 di maggio, Google presenta una nuova versione del modello PaliGemma 2, un modello open source per l'elaborazione di immagini e testi.

Ecco cosa sappiamo

La prima versione di PaliGemma è stata lanciata a maggio ed è stata utilizzata per compiti quali l'aggiunta di didascalie a immagini e video, il riconoscimento di testo nelle immagini, il rilevamento di oggetti, la loro suddivisione in parti e la risposta a domande sul contenuto visivo.

PaliGemma 2 offre una funzione di "didascalia lunga" che consente di generare descrizioni dettagliate delle immagini, tenendo conto di azioni, emozioni e dell'atmosfera generale della scena. Il modello è disponibile in diverse varianti con parametri 3B, 10B, 28B e diverse risoluzioni.

Anche il riconoscimento del testo e l'analisi della struttura delle tabelle nei documenti sono stati migliorati. PaliGemma 2 mostra risultati eccellenti nel riconoscimento di formule chimiche, spartiti musicali, ragionamento spaziale e creazione di report basati su immagini a raggi X.

Google fa notare che PaliGemma 2 può essere facilmente sostituito con una versione precedente del modello, con miglioramenti delle prestazioni senza la necessità di apportare modifiche sostanziali al codice.

I modelli e il codice di PaliGemma 2 sono già disponibili su Kaggle, Hugging Face e Ollama.

Fonte: 9to5Google