Google annuncia il nuovo modello PaliGemma 2 per l'elaborazione di immagini e testi
Dopo l'annuncio di Gemma 2 all'I/O 2024 di maggio, Google presenta una nuova versione del modello PaliGemma 2, un modello open source per l'elaborazione di immagini e testi.
Ecco cosa sappiamo
La prima versione di PaliGemma è stata lanciata a maggio ed è stata utilizzata per compiti quali l'aggiunta di didascalie a immagini e video, il riconoscimento di testo nelle immagini, il rilevamento di oggetti, la loro suddivisione in parti e la risposta a domande sul contenuto visivo.
PaliGemma 2 offre una funzione di "didascalia lunga" che consente di generare descrizioni dettagliate delle immagini, tenendo conto di azioni, emozioni e dell'atmosfera generale della scena. Il modello è disponibile in diverse varianti con parametri 3B, 10B, 28B e diverse risoluzioni.
Anche il riconoscimento del testo e l'analisi della struttura delle tabelle nei documenti sono stati migliorati. PaliGemma 2 mostra risultati eccellenti nel riconoscimento di formule chimiche, spartiti musicali, ragionamento spaziale e creazione di report basati su immagini a raggi X.
Google fa notare che PaliGemma 2 può essere facilmente sostituito con una versione precedente del modello, con miglioramenti delle prestazioni senza la necessità di apportare modifiche sostanziali al codice.
I modelli e il codice di PaliGemma 2 sono già disponibili su Kaggle, Hugging Face e Ollama.
Fonte: 9to5Google