Google представила Gemma 4 12B: Мультимодальный ИИ, который наконец поместится в ваш ноутбук
Пока индустрия соревнуется в строительстве все более крупных цифровых «монстров», которые требуют энергии небольшого городка, Google решила пойти другим путем. Компания презентовала Gemma 4 12B — мультимодальную систему, которая пытается доказать, что для умной работы необязательно иметь серверный ангар. Это «золотая середина» между компактными моделями и тяжеловесами, созданная специально для тех, кто хочет запускать серьезный ИИ локально, а не кормить облачные сервисы своими данными.
Архитектурная диета и отказ от лишнего
Главная фишка новой модели Google — радикальное упрощение. Разработчики решили, что традиционные отдельные энкодеры для изображений и аудио — это прошлый день и лишняя нагрузка на систему. Вместо того, чтобы строить сложные конструкции, они интегрировали мультимодальные сигналы непосредственно в основную языковую модель. Например, для обработки изображений теперь используется легкий модуль на основе матричных преобразований, а аудиосигнал вообще проецируется прямо в пространство текстовых токенов.
Такой подход позволил Gemma 4 12B демонстрировать результаты, которые почти не уступают значительно более крупным системам на 26 млрд параметров. При этом требования к железу остались в пределах разумного: для комфортной работы устройства понадобится 16 ГБ видеопамяти или унифицированной памяти. Это делает модель доступной для владельцев современных ноутбуков, а не только для счастливчиков с профессиональными рабочими станциями.
Локальность как новый стандарт
Помимо «всеядности» к форматам данных, модель получила поддержку механизма Multi-Token Prediction (MTP). Если без технического жаргона: это позволяет системе генерировать текст быстрее, предсказывая несколько следующих слов одновременно, что критически важно для агентных сценариев. То есть, когда ИИ не просто пишет стихи, а выполняет конкретные задачи в роли ассистента.
Google отмечает, что линейка Gemma уже собрала более 150 миллионов загрузок. Ее используют везде — от робототехники до систем кибербезопасности. Новая версия распространяется под свободной лицензией Apache 2.0, что фактически развязывает руки разработчикам для создания собственных продуктов на ее основе без патентных проблем.
В то время как Google делает ставку на открытость и локальные вычисления, конкуренция на рынке больших языковых моделей только обостряется. Пока одни пытаются сделать ИИ доступным каждому, другие бьют рекорды по охвату аудитории — например, ChatGPT взял миллиард пользователей, заставляя конкурентов ускорять разработку перед выходом на IPO.