Onderzoekers gebruiken AI om robots sneller en gemakkelijker te trainen
Misschien heeft iedereen wel talloze video's gezien van medewerkers van Boston Dynamics die robots "spotten" en ze trainen om onvoorziene obstakels te overwinnen. Dit is echter een moeizaam proces dat het werk van ontwikkelaars inhoudt, het testen in echte omstandigheden, het corrigeren van fouten en het herhalen van dit proces totdat er acceptabele resultaten zijn verkregen.
Om dit proces te optimaliseren, besloot een onderzoeksteam van de Universiteit van Pennsylvania, de Universiteit van Texas in Austin en nVidia DrEureka te gebruiken, een Large Language Model dat is ontworpen om de kloof tussen virtuele en echte omgevingen te overbruggen en robots te trainen zonder dat er testers of echte obstakels nodig zijn. DrEureka is een uitbreiding op de nVidia Eureka-tool.
Eureka is een LLM die het proces van het trainen van neurale netwerken automatiseert door middel van positief bekrachtigingsleren (een proces dat in wezen vergelijkbaar is met menselijke training). Het systeem werd aangekondigd in oktober 2023. Eureka is gebaseerd op ChatGPT-4, begrijpt normale spraak en heeft geen precieze beschrijving nodig van de parameters die gecorrigeerd moeten worden. Eureka kan grote steekproeven van neurale netwerkresultaten gebruiken om de beste kandidaat voor positieve versterking te bepalen. Bovendien genereert het systeem zelf statistieken over de resultaten, die worden gebruikt om nieuwe trainings- en versterkingsparameters te vormen. Met andere woorden, het neurale netwerk traint het neurale netwerk volgens de algemene instructies van de ontwikkelaar.
DrEureka heeft een aantal voordelen ten opzichte van het basismodel van Eureka dankzij de geïntegreerde veiligheidsinstructies en het positieve versterkingssysteem.
In een experiment waren de onderzoekers in staat om de viervoeter te leren balanceren en lopen op een yogabal in een simulatie, en vervolgens was hij in staat om dit meteen te doen bij zijn eerste poging in het echt.
Geavanceerde LLM's zoals de GPT-4 hebben een ingebouwd geavanceerd begrip van natuurkundige concepten zoals wrijving, demping, stijfheid, zwaartekracht en meer. "We zijn (enigszins) verrast dat DrEureka deze parameters goed kan afstemmen en zijn redenering goed kan rechtvaardigen," schreef Jim Fan van nVidia.
De wetenschappers waren aangenaam verrast dat de robothond tijdens zijn eerste inzet in de echte wereld correct omging met noodsituaties, zoals veranderingen in het terrein of een afname van de druk in de bal.
Vandaag de dag gaat het lanceren van een robot in de echte wereld gepaard met het nauwgezette en vervelende werk van hoogopgeleide robotici die handmatig de parameters moeten selecteren die worden overgezet naar de echte wereld en de parameters die kunnen veranderen. Het gebruik van virtuele omgevingen zal de tijd en kosten van het trainen van robots in verschillende activiteiten aanzienlijk verminderen.
Het onderzoeksteam heeft de resultaten van het experiment gepubliceerd op GitHub zodat meer mensen aan het proces kunnen deelnemen.