Quizá todo el mundo haya visto numerosos vídeos de empleados de Boston Dynamics "simulando" robots, entrenándolos para superar obstáculos imprevistos. Sin embargo, se trata de un proceso minucioso que implica el trabajo de desarrolladores, pruebas en condiciones reales, corrección de errores y repetición de este proceso hasta obtener resultados aceptables.
Para optimizar este proceso, un equipo de investigación de la Universidad de Pensilvania, la Universidad de Texas en Austin y nVidia decidió utilizar DrEureka, un gran modelo de lenguaje diseñado para salvar la distancia entre los entornos virtual y real y entrenar robots sin necesidad de probadores ni obstáculos del mundo real. DrEureka es un complemento de la herramienta nVidia Eureka.
Eureka es un LLM que automatiza el proceso de entrenamiento de redes neuronales mediante aprendizaje por refuerzo positivo (un proceso esencialmente similar al entrenamiento humano). El sistema se anunció en octubre de 2023. Eureka se basa en ChatGPT-4, entiende el habla normal y no requiere una descripción precisa de los parámetros que hay que corregir. Eureka es capaz de utilizar grandes muestras de resultados de redes neuronales para determinar el mejor candidato para el refuerzo positivo. Además, el propio sistema genera estadísticas sobre los resultados, que se utilizan para formar nuevos parámetros de entrenamiento y refuerzo. En otras palabras, la red neuronal entrena a la red neuronal según las instrucciones generales del desarrollador.
DrEureka presenta una serie de ventajas sobre el modelo básico de Eureka gracias a sus instrucciones de seguridad integradas y a su sistema de refuerzo positivo.
En un experimento, los investigadores consiguieron enseñar al cuadrúpedo a mantener el equilibrio y caminar sobre una pelota de yoga en una simulación, y luego fue capaz de hacerlo inmediatamente en su primer intento en la vida real.
Los LLM avanzados como el GPT-4 llevan incorporada una comprensión avanzada de conceptos físicos como la fricción, la amortiguación, la rigidez y la gravedad, entre otros. "Estamos (algo) sorprendidos al comprobar que DrEureka puede afinar bien estos parámetros y justificar bien su razonamiento", escribió Jim Fan, de nVidia.
Los científicos quedaron gratamente sorprendidos de que el perro robot manejara correctamente situaciones de emergencia, como cambios en el terreno o una disminución de la presión en la bola, durante su primer despliegue en el mundo real.
Hoy en día, el proceso de lanzar un robot al mundo real implica el trabajo minucioso y tedioso de robotistas altamente cualificados que deben seleccionar manualmente los parámetros que se trasladarán al mundo real y los que pueden cambiar. El uso de entornos virtuales reducirá considerablemente el tiempo y el coste del entrenamiento de robots en diversas actividades.
El equipo de investigación ha publicado los resultados del experimento en GitHub para que más personas puedan sumarse al proceso.
Fuente: interestingengineering.com