Google lance Gemma 4 12B : une IA multimodale qui tourne enfin sur votre ordinateur

Par: Michael Korgs | 04.06.2026, 11:37

Google a publié le 3 juin 2026 Gemma 4 12B, un modèle d'intelligence artificielle open source capable de traiter du texte, des images et de l'audio sur un seul et même appareil. Il suffit de 16 Go de mémoire vive unifiée ou de VRAM pour le faire tourner — ce qui correspond aux MacBook Pro récents ou aux PC portables haut de gamme. Pour la famille Gemma, c'est un cap : 150 millions de téléchargements cumulés depuis ses débuts.

L'architecture

La particularité de Gemma 4 12B tient à ce qu'il ne contient pas d'encodeurs séparés pour les images ou l'audio. Les signaux visuels sont traités via un module léger à base de transformations matricielles ; le son est projeté directement dans l'espace des tokens textuels. Résultat : le modèle affiche des performances proches d'un modèle MoE de 26 milliards de paramètres, en occupant moins de la moitié de la mémoire.

Gemma 4 12B atteint des performances proches d'un modèle MoE de 26 milliards de paramètres sur les benchmarks standards, tout en occupant moins de la moitié de la mémoire totale. Illustration : Google

On trouve aussi la prise en charge du Multi-Token Prediction (MTP) — un mécanisme qui génère plusieurs mots à la fois pour réduire la latence. C'est utile pour les scénarios dits « agentiques », où l'IA ne se contente pas de répondre mais enchaîne des tâches de manière autonome. La fenêtre de contexte monte à 256 000 tokens, avec le support de plus de 140 langues.

Ce que ça change en pratique

La licence Apache 2.0 signifie qu'on peut utiliser le modèle dans un produit commercial sans redevance ni risque de litige lié aux brevets. Les poids sont téléchargeables gratuitement sur Hugging Face (`google/gemma-4-12B-it`) et Kaggle, sans restriction géographique. Pour ceux qui veulent aller plus loin, une quantification 4 bits réduit les besoins à 8 Go de mémoire — de quoi tourner sur des configurations plus modestes. Sur macOS, deux applications natives (Google AI Edge Gallery et Eloquent) permettent une exécution locale sans ligne de commande.

Pour les développeurs en France, l'enjeu est direct : un modèle multimodal de ce niveau, utilisable hors cloud, réduit les coûts d'inférence et garde les données sur la machine. OVHcloud et Mistral restent positionnés sur l'inférence cloud d'entreprise, mais la logique « local first » de Google rend crédible une alternative pour les projets à budget serré ou sensibles à la confidentialité — transcription, traduction, assistance au code. Aucune communication officielle de la CNIL sur la conformité RGPD n'a encore été publiée concernant ce modèle.