Des chercheurs utilisent l'IA pour former des robots plus rapidement et plus facilement

Par: Viktor Tsyrfa | 06.05.2024, 10:03

Tout le monde a peut-être vu de nombreuses vidéos montrant des employés de Boston Dynamics en train de "simuler" des robots, les entraînant à surmonter des obstacles imprévus. Il s'agit toutefois d'un processus minutieux qui implique le travail de développeurs, des tests en conditions réelles, la correction des erreurs et la répétition de ce processus jusqu'à l'obtention de résultats acceptables.

Pour optimiser ce processus, une équipe de recherche de l'université de Pennsylvanie, de l'université du Texas à Austin et de nVidia a décidé d'utiliser DrEureka, un modèle de langage étendu conçu pour combler le fossé entre les environnements virtuels et réels et former des robots sans avoir recours à des testeurs ou à des obstacles réels. DrEureka est un complément à l'outil Eureka de nVidia.

Eureka est un LLM qui automatise le processus de formation des réseaux neuronaux par l'apprentissage par renforcement positif (un processus essentiellement similaire à la formation humaine). Le système a été annoncé en octobre 2023. Eureka est basé sur ChatGPT-4, comprend la parole normale et ne nécessite pas de description précise des paramètres à corriger. Eureka est capable d'utiliser de larges échantillons de résultats de réseaux neuronaux pour déterminer le meilleur candidat au renforcement positif. En outre, le système génère lui-même des statistiques sur les résultats, qui sont utilisées pour former de nouveaux paramètres de formation et de renforcement. En d'autres termes, le réseau neuronal entraîne le réseau neuronal selon les instructions générales du développeur.

DrEureka présente un certain nombre d'avantages par rapport au modèle Eureka de base grâce à ses instructions de sécurité intégrées et à son système de renforcement positif.

Lors d'une expérience, les chercheurs ont pu apprendre au quadrupède à se tenir en équilibre et à marcher sur un ballon de yoga lors d'une simulation, et il a pu le faire immédiatement lors de sa première tentative dans la vie réelle.

Les LLM avancés tels que le GPT-4 sont dotés d'une compréhension avancée des concepts physiques tels que la friction, l'amortissement, la rigidité, la gravité, etc. "Nous sommes (quelque peu) surpris de constater que DrEureka peut bien régler ces paramètres et justifier son raisonnement", a écrit Jim Fan, de nVidia.

Les scientifiques ont été agréablement surpris de constater que le chien-robot gérait correctement les situations d'urgence, telles que les changements de terrain ou la diminution de la pression dans la balle, lors de son premier déploiement dans le monde réel.

Aujourd'hui, le processus de lancement d'un robot dans le monde réel implique le travail minutieux et fastidieux de roboticiens hautement qualifiés qui doivent sélectionner manuellement les paramètres qui seront transférés dans le monde réel et ceux qui sont susceptibles de changer. L'utilisation d'environnements virtuels réduira considérablement le temps et le coût de la formation des robots à diverses activités.

L'équipe de recherche a publié les résultats de l'expérience sur GitHub afin que davantage de personnes puissent se joindre au processus.

Source : interestingengineering.com