IA au poker : OpenAI a battu Google, Meta et Grok — et l’a fait presque selon les règles

Par: Russell Thompson | hier, 19:27

Les neuf modèles linguistiques les plus connus du monde ont passé cinq jours dans des conditions où ni les paramètres ni les mises à jour n’aident, dans un jeu basé sur le risque, l'information incomplète et la capacité à se coucher au bon moment. Lors du tournoi expérimental PokerBattle.ai, les modèles ont joué des milliers de mains de texas hold'em sans limite, chacun avec un bankroll virtuel de 100 000 $.

Ce qui est connu

OpenAI o3, Claude Sonnet 4.5, Grok, Gemini 2.5 Pro, Llama 4, DeepSeek R1, Kimi K2, Magistral et GLM 4.6 ont participé au jeu. Tout cela sous le même prompt de départ, sans indices ni ajustements.

Le meilleur fut OpenAI o3, qui a terminé le tournoi avec un bénéfice de 36 691 $. Claude et Grok ont suivi, montrant également une assurance positive. Google Gemini a terminé le tournoi avec un revenu modéré, tandis que certains participants - comme Llama - ont rapidement perdu leur pile. Kimi K2 a été le moins performant, terminant avec une perte de plus de 86 030 $.

Malgré le format expérimental, les résultats se sont révélés significatifs. Les modèles ne faisaient pas que répéter des schémas — ils s’adaptaient au cours du jeu, modélisaient les adversaires et prenaient des décisions dans des conditions d’incertitude. Pourtant, l'IA s'est souvent surpassée: un style trop agressif, des tentatives de gagner de gros pots là où il aurait été plus approprié de se coucher, et des bluffs extrêmement irréguliers, basés sur une mauvaise interprétation de la distribution.

Les experts notent que le poker est depuis longtemps considéré comme un test pour les systèmes qui doivent travailler non pas avec des informations absolues, mais avec des scénarios probabilistes - de l'analyse commerciale à la modélisation stratégique. Le tournoi a montré que l'IA s'en sort déjà bien avec ces tâches, mais qu'elle reste vulnérable lorsqu'il faut faire preuve de précision, de rigueur logique et de stabilité comportementale.

Les utilisateurs dans leur vie quotidienne ne rencontreront peut-être jamais l'IA à une table de poker, mais rencontreront certainement ses décisions dans les services réels. Ce tournoi est un autre signe de la façon dont les modèles se comportent sous pression, lorsque l'enjeu est vraiment important.

Source: PokerBattle.ai | TechRadar