Google анонсувала нову модель PaliGemma 2 для обробки зображень і тексту

Автор: Анастасія Бобкова | 05 грудня 2024, 23:38

Після анонсу Gemma 2 на I/O 2024 у травні, Google представляє нову версію моделі PaliGemma 2 – відкриту модель для обробки зображень і тексту.

Що відомо

Перша версія PaliGemma була запущена в травні і використовувалася для таких завдань, як додавання підписів до зображень і відео, розпізнавання тексту на зображеннях, виявлення об’єктів, їх поділ на частини та відповіді на запитання щодо візуального контенту.

PaliGemma 2 пропонує функцію “довгих підписів”, яка дозволяє генерувати детальні описи зображень, враховуючи дії, емоції та загальну атмосферу сцени. Модель доступна в кількох варіантах з розмірами 3B, 10B, 28B параметрів і різними роздільними здатностями.

Також покращено розпізнавання тексту та аналіз структури таблиць у документах. PaliGemma 2 показує відмінні результати в розпізнаванні хімічних формул, музичних партитур, просторовому мисленні та створенні звітів на основі рентгенівських знімків.

Google зазначає, що PaliGemma 2 можна легко замінити на попередню версію моделі, при цьому продуктивність покращується без необхідності великих змін у коді.

Моделі та код PaliGemma 2 вже доступні на платформах Kaggle, Hugging Face та Ollama.

Джерело: 9to5Google