Пожалуй, все видели многочисленные видео, где работники Boston Dynamics "издеваются" над роботами, тренируя их преодолевать непредсказуемые препятствия. Однако это кропотливый процесс, который включает в себя работу разработчиков, тестирование в реальных условиях, исправление найденных ошибок и повтор этого процесса вплоть до получения приемлемых результатов.
Чтобы оптимизировать именно этот процесс исследовательская группа Университета Пенсильвании, Техасского университета в Остине и представителей nVidia решили использовать DrEureka - Большую Речевую Модель (Large Language Model), которая спроектирована таким образом, чтобы нивелировать разницу между виртуальной средой и реальными условиями, и тренировать роботов без необходимости привлекать тестеров и реальных препятствий. DrEureka это надстройка над инструментом от nVidia Eureka.
Eureka это LLM, автоматизирующая процесс тренировки нейросетей путем положительного закрепления (процесс по сути своей похожий на обучение людей). Система была анонсирована в октябре 2023 года. Eureka работает на основе ChatGPT-4, понимает обычную речь и не требует точного описания параметров, которые нужно исправить. Eureka умеет использовать большие выборки результатов работы нейросети для определения лучшего кандидата на положительное подкрепление. Более того, система сама формирует статистику результатов, на основе которой формируются новые параметры обучения и подкрепления. То есть нейросеть тренирует нейросеть по общим указаниям разработчика.
DrEureka имеет ряд преимуществ над базовой моделью Eureka благодаря интегрированным инструкциям безопасности и системе положительного подкрепления.
По результатам эксперимента, исследователям удалось научить четвероногого робота держать равновесие и ходить на мяче для йоги в симуляции, после чего он смог это делать сразу при первой же попытке в реальной жизни.
Передовые LLM, такие как GPT-4, оснащены встроенным расширенным пониманием таких физических понятий, как трение, демпфирование, жесткость, гравитация и тому подобное. "Мы (несколько) удивлены, обнаружив, что DrEureka может грамотно настроить эти параметры и хорошо обосновать свои рассуждения", - написал Джим Фан (Jim Fan), представитель nVidia.
Ученые были приятно удивлены, что уже при первом выходе в реальный мир робопес корректно отрабатывал нештатные ситуации, такие как изменения в рельефе, или снижение давления в мяче.
Сейчас процесс запуска робота в реальный мир предполагает кропотливую и утомительную работу высококвалифицированных робототехников, которые должны вручную перебрать параметры, которые будут переданы в реальный мир, а какие могут меняться. Использование виртуальных сред существенно сократит время и затраты на тренировку роботов различным занятиям.
Исследовательская группа опубликовала результаты эксперимента на GitHub чтобы к этому процессу могло присоединиться больше людей.
Источник: interestingengineering.com