Google анонсувала нову модель PaliGemma 2 для обробки зображень і тексту
Після анонсу Gemma 2 на I/O 2024 у травні, Google представляє нову версію моделі PaliGemma 2 – відкриту модель для обробки зображень і тексту.
Що відомо
Перша версія PaliGemma була запущена в травні і використовувалася для таких завдань, як додавання підписів до зображень і відео, розпізнавання тексту на зображеннях, виявлення об’єктів, їх поділ на частини та відповіді на запитання щодо візуального контенту.
PaliGemma 2 пропонує функцію “довгих підписів”, яка дозволяє генерувати детальні описи зображень, враховуючи дії, емоції та загальну атмосферу сцени. Модель доступна в кількох варіантах з розмірами 3B, 10B, 28B параметрів і різними роздільними здатностями.
Також покращено розпізнавання тексту та аналіз структури таблиць у документах. PaliGemma 2 показує відмінні результати в розпізнаванні хімічних формул, музичних партитур, просторовому мисленні та створенні звітів на основі рентгенівських знімків.
Google зазначає, що PaliGemma 2 можна легко замінити на попередню версію моделі, при цьому продуктивність покращується без необхідності великих змін у коді.
Моделі та код PaliGemma 2 вже доступні на платформах Kaggle, Hugging Face та Ollama.
Джерело: 9to5Google