Google anuncia el nuevo modelo PaliGemma 2 para el tratamiento de imágenes y texto

Por: Nastya Bobkova | 05.12.2024, 23:38

Tras el anuncio de Gemma 2 en I/O 2024 en mayo, Google presenta una nueva versión del modelo PaliGemma 2, un modelo de código abierto para el procesamiento de imágenes y texto.

Esto es lo que sabemos

La primera versión de PaliGemma se lanzó en mayo y se utilizaba para tareas como añadir pies de foto a imágenes y vídeos, reconocer texto en imágenes, detectar objetos, dividirlos en partes y responder a preguntas sobre contenido visual.

PaliGemma 2 ofrece una función de "pie de foto largo" que permite generar descripciones detalladas de imágenes, teniendo en cuenta acciones, emociones y la atmósfera general de la escena. El modelo está disponible en varias variantes con parámetros 3B, 10B, 28B y distintas resoluciones.

También se han mejorado el reconocimiento de textos y el análisis de la estructura de tablas en documentos. PaliGemma 2 muestra excelentes resultados en el reconocimiento de fórmulas químicas, partituras musicales, razonamiento espacial y creación de informes basados en imágenes de rayos X.

Google señala que PaliGemma 2 puede sustituirse fácilmente por una versión anterior del modelo, con mejoras de rendimiento sin necesidad de grandes cambios de código.

Los modelos y el código de PaliGemma 2 ya están disponibles en Kaggle, Hugging Face y Ollama.

Fuente: 9to5Google