Українська версія gg виходить за підтримки маркетплейсу Allo

Google представила Gemma 4 12B: Мультимодальний ШІ, який нарешті влізе у ваш ноутбук

Автор: Петро Тітаренко | сьогодні, 12:24
Інтерфейс та можливості Gemma 4 Google запускає кардинально скорочену але потужну Gemma 4 12B. Джерело: Google

Поки індустрія змагається у будівництві дедалі більших цифрових «монстрів», що потребують енергії невеликого містечка, Google вирішила піти іншим шляхом. Компанія презентувала Gemma 4 12B — мультимодальну систему, яка намагається довести, що для розумної роботи не обов’язково мати серверний ангар. Це «золота середина» між компактними моделями та важковаговиками, створена спеціально для тих, хто хоче запускати серйозний ШІ локально, а не годувати хмарні сервіси своїми даними.

Архітектурна дієта та відмова від зайвого

Головна фішка нової моделі Google — радикальне спрощення. Розробники вирішили, що традиційні окремі енкодери для зображень та аудіо — це вчорашній день і зайве навантаження на систему. Замість того, щоб ліпити складні конструкції, вони інтегрували мультимодальні сигнали безпосередньо в основну мовну модель. Наприклад, для обробки картинок тепер використовується легкий модуль на основі матричних перетворень, а аудіосигнал взагалі проєктується прямо у простір текстових токенів.

Такий підхід дозволив Gemma 4 12B демонструвати результати, що майже не поступаються значно більшим системам на 26 млрд параметрів. При цьому вимоги до заліза залишилися в межах притомності: для комфортної роботи пристрою знадобиться 16 ГБ відеопам’яті або уніфікованої пам’яті. Це робить модель доступною для власників сучасних ноутбуків, а не лише для щасливців із професійними робочими станціями.

Gemma 4 12B в стандартних тестах
Gemma 4 12B забезпечує продуктивність, що наближається до більшої моделі MoE з 26B, у ​​стандартних тестах, але при цьому займає менше половини загального обсягу пам'яті. Ілюстрація: Google

Локальність як новий стандарт

Окрім «всеїдності» до форматів даних, модель отримала підтримку механізму Multi-Token Prediction (MTP). Якщо без технічного жаргону: це дозволяє системі генерувати текст швидше, передбачаючи кілька наступних слів одночасно, що критично важливо для агентних сценаріїв. Тобто, коли ШІ не просто пише вірші, а виконує конкретні завдання в ролі асистента.

Google зазначає, що лінійка Gemma вже зібрала понад 150 мільйонів завантажень. Її використовують всюди — від робототехніки до систем кібербезпеки. Нова версія розповсюджується під вільною ліцензією Apache 2.0, що фактично розв’язує руки розробникам для створення власних продуктів на її базі без патентного головного болю.

У той час як Google робить ставку на відкритість та локальні обчислення, конкуренція на ринку великих мовних моделей лише загострюється. Поки одні намагаються зробити ШІ доступним кожному, інші б'ють рекорди за охопленням аудиторії — наприклад, ChatGPT взяв мільярд користувачів, змушуючи конкурентів прискорювати розробку перед виходом на IPO.

Читайте gg українською у Telegram