Xiaomi MiMo UltraSpeed : 1000 tokens/s sur GPU standard, un défi pour l'IA européenne

Par: Michael Korgs | 09.06.2026, 10:24

Xiaomi vient de franchir un cap symbolique dans la course à la vitesse des IA : son modèle MiMo-V2.5-Pro, en mode UltraSpeed, atteint 1000 tokens par seconde sur un modèle à un billion de paramètres, en s'appuyant sur des GPU standards loués dans le cloud — sans puce propriétaire. À titre de comparaison, GPT-5.5 plafonne à 68 tokens/s et Gemini Flash à 192 tokens/s. Pour les développeurs qui ont besoin d'une réponse quasi instantanée — traduction en direct, analyse de données en flux tendu — ce gain de vitesse change la donne.

La technologie derrière le chiffre

Ce résultat repose sur trois optimisations combinées, développées avec TileRT : une quantification FP4 sur les couches d'experts, un décodage spéculatif appelé DFlash, et un moteur d'exécution baptisé TileRT. Le tout tourne sur des nœuds de 8 GPU standard, ce qui distingue Xiaomi de concurrents comme Groq ou Cerebras, qui misent sur du silicium dédié. Le pic de débit atteint ~1200 tokens/s selon le Blog officiel Xiaomi MiMo. Le prédécesseur MiMo-V2-Flash, sorti en décembre 2025, culminait à 150 tokens/s — UltraSpeed est donc 6,7 fois plus rapide. Les poids FP4-DFlash sont open source sur Hugging Face, et les modules TileRT sont disponibles sur GitHub, ce qui permet des tests en auto-hébergement.

Accès et tarifs

La période d'essai court du 9 au 23 juin 2026 sur xiaomimimo.com, mais l'accès est réservé aux entreprises et développeurs sélectionnés sur dossier. Les participants bénéficient de deux semaines gratuites, avec des contraintes claires : 10 requêtes en file d'attente par compte par jour, sessions limitées à 30 minutes, déconnexion automatique après 5 minutes d'inactivité. Le mode Token Plan n'est pas compatible.

En dehors du trial, UltraSpeed est facturé trois fois le tarif standard de MiMo-V2.5-Pro. Pour référence, le tarif standard tourne autour de 0,43 $/million de tokens en entrée — UltraSpeed reviendrait donc à environ 1,29 $/million. Aucun tarif en euros ni intégration avec des acteurs français (OVHcloud, Scaleway) n'est annoncé à ce stade, ce que relève également la TileRT infrastructure homepage.

Ce que ça change en France

Pour les équipes françaises, le tableau est contrasté. La vitesse est réelle, mais plusieurs questions restent sans réponse. La quantification FP4 combinée au décodage spéculatif DFlash soulève des interrogations sur le traitement des tokens intermédiaires au regard du RGPD — aucune déclaration de localisation des données ni conformité CNIL n'est publiée. Face à Mistral (optimisé pour le marché français, disponible sur OVHcloud) ou à Hugging Face Inference API, le surcoût de 3× et l'absence de partenariat local rendent UltraSpeed difficile à justifier pour une PME française à ce stade. Pour les grandes structures ayant des cas d'usage à faible latence absolue, le checkpoint open source reste la voie d'entrée la plus accessible dès maintenant.

Intelligence artificielle IA / Réseaux neuronaux Xiaomi