Google представила Gemma 4 12B: Мультимодальный ИИ, который наконец поместится в ваш ноутбук

Автор: Петр Титаренко, сегодня, 12:22

Пока индустрия соревнуется в строительстве все более крупных цифровых «монстров», которые требуют энергии небольшого городка, Google решила пойти другим путем. Компания презентовала Gemma 4 12B — мультимодальную систему, которая пытается доказать, что для умной работы необязательно иметь серверный ангар. Это «золотая середина» между компактными моделями и тяжеловесами, созданная специально для тех, кто хочет запускать серьезный ИИ локально, а не кормить облачные сервисы своими данными.

Архитектурная диета и отказ от лишнего

Главная фишка новой модели Google — радикальное упрощение. Разработчики решили, что традиционные отдельные энкодеры для изображений и аудио — это прошлый день и лишняя нагрузка на систему. Вместо того, чтобы строить сложные конструкции, они интегрировали мультимодальные сигналы непосредственно в основную языковую модель. Например, для обработки изображений теперь используется легкий модуль на основе матричных преобразований, а аудиосигнал вообще проецируется прямо в пространство текстовых токенов.

Такой подход позволил Gemma 4 12B демонстрировать результаты, которые почти не уступают значительно более крупным системам на 26 млрд параметров. При этом требования к железу остались в пределах разумного: для комфортной работы устройства понадобится 16 ГБ видеопамяти или унифицированной памяти. Это делает модель доступной для владельцев современных ноутбуков, а не только для счастливчиков с профессиональными рабочими станциями.

Gemma 4 12B обеспечивает производительность, приближающуюся к более крупной модели MoE с 26B, в стандартных тестах, но при этом занимает меньше половины общего объема памяти. Иллюстрация: Google

Локальность как новый стандарт

Помимо «всеядности» к форматам данных, модель получила поддержку механизма Multi-Token Prediction (MTP). Если без технического жаргона: это позволяет системе генерировать текст быстрее, предсказывая несколько следующих слов одновременно, что критически важно для агентных сценариев. То есть, когда ИИ не просто пишет стихи, а выполняет конкретные задачи в роли ассистента.

Google отмечает, что линейка Gemma уже собрала более 150 миллионов загрузок. Ее используют везде — от робототехники до систем кибербезопасности. Новая версия распространяется под свободной лицензией Apache 2.0, что фактически развязывает руки разработчикам для создания собственных продуктов на ее основе без патентных проблем.

В то время как Google делает ставку на открытость и локальные вычисления, конкуренция на рынке больших языковых моделей только обостряется. Пока одни пытаются сделать ИИ доступным каждому, другие бьют рекорды по охвату аудитории — например, ChatGPT взял миллиард пользователей, заставляя конкурентов ускорять разработку перед выходом на IPO.