Отличные новости: ученые обучили ИИ технике уклонения от преследования
Ученый из Пекинского университета недавно опубликовал препринт научной статьи, в которой подробно описана система, основанная на видеоиграх, предназначенная для обучения носителей ИИ возможности уходить от преследования.
В чем суть
Большинство исследований в жанре "преследование-избегание" в области ИИ и теории игр связаны с обучением машин исследованию пространства. Поскольку в большинстве случаев обучение ИИ предполагает систему, которая вознаграждает машину за достижение цели, разработчики часто используют геймификацию в качестве стимула для обучения.
Другими словами, нельзя просто засунуть робота в комнату и сказать "делай то-то". Вы должны дать ему цели и причину для их достижения. Поэтому исследователи разрабатывают ИИ, который по своей природе стремится к вознаграждению.
Традиционная среда обучения разведке ставит перед агентом ИИ задачу манипулировать цифровыми моделями, чтобы исследовать пространство, пока он не выполнит свои цели или не найдет вознаграждение. Это напоминает Pac Man: ИИ должен перемещаться по окружению до тех пор, пока не съест все гранулы с вознаграждением.
История вопроса
С тех пор как системы ИИ компании DeepMind освоили шахматы и го, SCII стала основной тренировочной средой для состязательного ИИ. Это игра, в которой игроки, ИИ или комбинации игроков и ИИ естественным образом противостоят друг другу.
Но, что более важно, DeepMind и другие исследовательские организации уже проделали тяжелую работу по превращению исходного кода игры в игровую площадку для ИИ с несколькими мини-играми, которые позволяют разработчикам сосредоточиться на своей работе.
Исследователь Сюнь Хуанг, вышеупомянутый ученый из Пекинского университета, задался целью изучить парадигму "преследование-уклонение" для обучения моделей ИИ. Но обнаружил, что модель SCII имеет некоторые сдерживающие ограничения: во встроенной версии игры "преследование-уклонение" управление преследователями можно поручить только ИИ.
Основная схема включает в себя три преследующих персонажа (представленных солдатами из игры) и 25 персонажей-уклонистов (представленных пришельцами из игры). Существует также режим, использующий "туман войны" для затемнения карты, что затрудняет преследователю обнаружение и уничтожение уклониста, но, согласно исследованиям, это режим 1V1.
Забавно, но базовое поведение 25 уклонистов заключается в том, чтобы оставаться неподвижными, где бы они ни появились, а затем атаковать преследователей на месте. Поскольку преследователи намного сильнее уклоняющихся, это приводит к ожидаемому уничтожению каждого уклоняющегося сразу после обнаружения.
Перспективы
В статье Хуанга подробно описывается парадигма обучения ИИ в среде SCII, которая фокусируется на обучении ИИ уклоняться от преследователей. В их версии ИИ пытается скрыться в "тумане войны", чтобы избежать поимки и гибели.
Это увлекательное исследование с использованием видеоигр, которое может иметь огромные последствия для реального мира. Самые передовые военные организации мира используют видеоигры для обучения людей. А разработчики ИИ используют эти обучающие среды для подготовки мозгов ИИ к жизни внутри реального робота.
Чисто теоретически работа Хуанга кажется захватывающей. Но только представьте себе робота Boston Dynamics, наделённого способностью не просто бегать и прыгать по площадке, а целенаправленно уходить от преследования отрядом спецназа.
Источник: arxiv, deepmind, thenextweb
Иллюстрации: goodfon