Google lanserer en ny PaliGemma 2-modell for bilde- og tekstbehandling
Etter kunngjøringen av Gemma 2 på I/O 2024 i mai, introduserer Google en ny versjon av PaliGemma 2-modellen, en åpen kildekodemodell for bilde- og tekstbehandling.
Dette er hva vi vet
Den første versjonen av PaliGemma ble lansert i mai og ble brukt til oppgaver som å legge til bildetekster til bilder og videoer, gjenkjenne tekst i bilder, oppdage objekter, dele dem opp i deler og svare på spørsmål om visuelt innhold.
PaliGemma 2 tilbyr en funksjon for "lange bildetekster" som gjør det mulig å generere detaljerte beskrivelser av bilder, der det tas hensyn til handlinger, følelser og den generelle atmosfæren i scenen. Modellen er tilgjengelig i flere varianter med 3B-, 10B- og 28B-parametere og ulike oppløsninger.
Tekstgjenkjenning og analyse av tabellstruktur i dokumenter har også blitt forbedret. PaliGemma 2 viser utmerkede resultater når det gjelder å gjenkjenne kjemiske formler, musikkpartiturer, romlig resonnering og lage rapporter basert på røntgenbilder.
Google påpeker at PaliGemma 2 enkelt kan erstattes med en tidligere versjon av modellen, med ytelsesforbedringer uten at det er behov for større kodeendringer.
PaliGemma 2-modeller og -kode er allerede tilgjengelig på Kaggle, Hugging Face og Ollama.
Kilde: 9to5Google