Відмінні новини: вчені навчили ІІ техніці ухилення від переслідування

Автор: Юрій Станіславський | 27 серпня 2021, 13:57

Вчений з Пекінського університету нещодавно опублікував препринт наукової статті, в якій детально описана система, заснована на відеоіграх, призначена для навчання носіїв ІІ можливості йти від переслідування.

В чому суть

Більшість досліджень в жанрі "переслідування-уникнення" в області ІІ і теорії ігор пов'язані з навчанням машин дослідженню простору. Оскільки в більшості випадків навчання ІІ передбачає систему, яка винагороджує машину за досягнення мети, розробники часто використовують Гейміфікація як стимул для навчання.

Іншими словами, не можна просто засунути робота в кімнату і сказати "роби те-то". Ви повинні дати йому цілі і причину для їх досягнення. Тому дослідники розробляють ІІ, який за своєю природою прагне до винагороди.

Традиційне середовище навчання розвідці ставить перед агентом ІІ завдання маніпулювати цифровими моделями, щоб досліджувати простір, поки він не виконає свої цілі або не знайде винагороду. Це нагадує Pac Man: ІІ повинен переміщатися по оточенню до тих пір, поки не з'їсть все гранули з винагородою.

Історія питання

З тих пір як системи ШІ компанії DeepMind освоїли шахи і го, SCII стала основною тренувальною середовищем для змагального ІІ. Це гра, в якій гравці, ІІ або комбінації гравців і ІІ природним чином протистоять один одному.

Але, що більш важливо, DeepMind і інші дослідницькі організації вже виконали важку роботу по перетворенню вихідного коду гри в ігровий майданчик для ІІ з декількома міні-іграми, які дозволяють розробникам зосередитися на своїй роботі.

Дослідник Сюнь Хуанг, вищезгаданий вчений з Пекінського університету, поставив собі за мету вивчити парадигму "переслідування-ухилення" для навчання моделей ІІ. Але виявив, що модель SCII має деякі стримуючі обмеження: у вбудованій версії гри "переслідування-ухилення" управління переслідувачами можна доручити тільки ІІ.

Основна схема включає в себе три переслідують персонажа (представлених солдатами з гри) і 25 персонажів-ухильників (представлених прибульцями з гри). Існує також режим, який використовує "туман війни" для затемнення карти, що ускладнює переслідувачеві виявлення і знищення ухильника, але, згідно з дослідженнями, це режим 1V1.

Забавно, але базове поведінку 25 ухильників полягає в тому, щоб залишатися нерухомими, де б вони не з'явилися, а потім атакувати переслідувачів на місці. Оскільки переслідувачі набагато сильніше ухиляються, це призводить до очікуваного знищення кожного ухиляється відразу після виявлення.

перспективи

У статті Хуанга детально описується парадигма навчання ІІ в середовищі SCII, яка фокусується на навчанні ІІ ухилятися від переслідувачів. У їх версії ІІ намагається сховатися в "тумані війни", щоб уникнути затримання і загибелі.

Це захоплююче дослідження з використанням відеоігор, яке може мати величезні наслідки для реального світу. Найбільш передові військові організації світу використовують відеоігри для навчання людей. А розробники ІІ використовують ці навчальні середовища для підготовки мізків ІІ до життя всередині реального робота.

Чисто теоретично робота Хуанга здається захоплюючою. Але тільки уявіть собі робота Boston Dynamics, наділеного здатністю не просто бігати і стрибати по майданчику, а цілеспрямовано йти від переслідування загоном спецназу.

джерело: arxivdeepmindthenextweb

ілюстрації: goodfon