Google lanserer en ny PaliGemma 2-modell for bilde- og tekstbehandling

Av: Nastya Bobkova | 05.12.2024, 23:38

Etter kunngjøringen av Gemma 2 på I/O 2024 i mai, introduserer Google en ny versjon av PaliGemma 2-modellen, en åpen kildekodemodell for bilde- og tekstbehandling.

Dette er hva vi vet

Den første versjonen av PaliGemma ble lansert i mai og ble brukt til oppgaver som å legge til bildetekster til bilder og videoer, gjenkjenne tekst i bilder, oppdage objekter, dele dem opp i deler og svare på spørsmål om visuelt innhold.

PaliGemma 2 tilbyr en funksjon for "lange bildetekster" som gjør det mulig å generere detaljerte beskrivelser av bilder, der det tas hensyn til handlinger, følelser og den generelle atmosfæren i scenen. Modellen er tilgjengelig i flere varianter med 3B-, 10B- og 28B-parametere og ulike oppløsninger.

Tekstgjenkjenning og analyse av tabellstruktur i dokumenter har også blitt forbedret. PaliGemma 2 viser utmerkede resultater når det gjelder å gjenkjenne kjemiske formler, musikkpartiturer, romlig resonnering og lage rapporter basert på røntgenbilder.

Google påpeker at PaliGemma 2 enkelt kan erstattes med en tidligere versjon av modellen, med ytelsesforbedringer uten at det er behov for større kodeendringer.

PaliGemma 2-modeller og -kode er allerede tilgjengelig på Kaggle, Hugging Face og Ollama.

Kilde: 9to5Google