Дослідники використали ШІ щоб швидше і простіше тренувати роботів
Мабуть, усі бачили численні відео, де працівники Boston Dynamics «знущаються» з роботів, тренуючи їх долати непередбачувані перепони. Однак це кропіткий процес, який включає в себе роботу розробників, тестування в реальних умовах, виправлення знайдених помилок і повтор цього процесу аж до отримання прийнятних результатів.
Щоб оптимізувати саме цей процес дослідницька група Університету Пенсильванії, Техаського університету в Остіні і представників nVidia вирішили використати DrEureka – Велику Мовну Модель (Large Language Model), яка спроектована таким чином, щоб знівелювати різницю між віртуальним середовищем і реальними умовами, і тренувати роботів без необхідності залучати тестерів і реальних перешкод. DrEureka це надбудова над інструментом від nVidia Eureka.
Eureka це LLM, що автоматизує процес тренування нейромереж шляхом позитивного закріплення (процес по суті своїй схожий на навчання людей). Система була анонсована у жовтні 2023 року. Eureka працює на основі ChatGPT-4, розуміє звичайну мову і не потребує точного опису параметрів, які потрібно виправити. Eureka вміє використовувати великі вибірки результатів роботи нейромережі для визначення найкращого кандидата на позитивне підкріплення. Більше того, система сама формує статистику результатів, на основі якої формуються нові параметри навчання і підкріплення. Тобто нейромережа тренує нейромережу за загальними вказівками розробника.
DrEureka має ряд переваг над базовою моделлю Eureka завдяки інтегрованим інструкціям безпеки та системи позитивного підкріплення.
За результатами експерименту, дослідникам вдалося навчити чотириногого робота тримати рівновагу і ходити на м’ячі для йоги у симуляції, після чого він зміг це робити одразу при першій же спробі в реальному житті.
Передові LLM, такі як GPT-4, оснащені вбудованим розширеним розумінням таких фізичних понять, як тертя, демпфування, жорсткість, гравітація тощо. «Ми (дещо) здивовані, виявивши, що DrEureka може грамотно налаштувати ці параметри та добре обгрунтувати свої міркування», — написав Джим Фан (Jim Fan), представник nVidia.
Науковці були приємно здивовані, що вже при першому виході в реальний світ робопес коректно відпрацьовував нештатні ситуації, як-то зміни в рельєфі, чи зниження тиску в м’ячі.
Зараз процес запуску робота в реальний світ передбачає кропітку і виснажливу роботу висококваліфікованих робототехніків, які повинні вручну перебрати параметри, які будуть передані в реальний світ, а які можуть змінюватися. Використання віртуальних середовищ суттєво скоротить час і витрати на тренування роботів різним заняттям.
Дослідницька група опублікувала результати експерименту на GitHub щоб до цього процесу могло долучитися більше людей.
Джерело: interestingengineering.com