Gute Nachrichten: Wissenschaftler haben der KI Ausweichtechniken beigebracht

Von: Yuriy Stanislavskiy | 27.08.2021, 13:57

Ein Wissenschaftler der Universität Peking hat vor kurzem den Vorabdruck einer Forschungsarbeit veröffentlicht, in der ein auf Videospielen basierendes System beschrieben wird, mit dem KI-Transporter so trainiert werden können, dass sie der Verfolgung entgehen.

Worum geht es

Die meisten Forschungsarbeiten im Bereich der KI und der Spieltheorie zum Thema Verfolgung und Vermeidung befassen sich damit, Maschinen beizubringen, den Raum zu erkunden. Da bei den meisten KI-Lernverfahren ein System zum Einsatz kommt, das die Maschine für das Erreichen eines Ziels belohnt, nutzen die Entwickler häufig Gamification als Lernanreiz.

Mit anderen Worten: Man kann nicht einfach einen Roboter in einen Raum stellen und sagen: "Tu dies und das". Man muss ihm Ziele geben und einen Grund, sie zu erreichen. Aus diesem Grund entwickeln die Forscher von eine KI, die von Natur aus belohnungsgesteuert ist.

In einer herkömmlichen Trainingsumgebung für Intelligenz hat ein KI-Agent die Aufgabe, digitale Modelle zu manipulieren, um den Raum zu erkunden, bis er seine Ziele erreicht oder eine Belohnung findet. Das erinnert an Pac Man: Die KI muss so lange durch die Umgebung navigieren, bis sie alle Belohnungskügelchen gefressen hat.

Hintergrund

Seitdem die KI-Systeme von DeepMind Schach und Go beherrschen, ist SCII die wichtigste Trainingsumgebung für wettbewerbsfähige KI. Es ist ein Spiel, bei dem Spieler, KI oder Kombinationen von Spielern und KI gegeneinander antreten.

Aber noch wichtiger ist, dass DeepMind und andere Forschungseinrichtungen bereits die harte Arbeit geleistet haben, den Quellcode des Spiels in einen KI-Spielplatz mit einigen Minispielen zu verwandeln, die es den Entwicklern ermöglichen, sich auf ihre Arbeit zu konzentrieren.

Der bereits erwähnte Wissenschaftler Xun Huang von der Universität Peking untersuchte das Verfolgungs-Vermeidungs-Paradigma für das Training von KI-Modellen. Er stellte jedoch fest, dass das SCII-Modell einige Einschränkungen aufweist: In einer eingebetteten Version des Verfolgungs- und Ausweichspiels kann nur die KI mit der Kontrolle von Verfolgern beauftragt werden.

Das Grundschema besteht aus drei Verfolgerfiguren (dargestellt durch Soldaten aus dem Spiel) und 25 Ausweichfiguren (dargestellt durch Aliens aus dem Spiel). Es gibt auch einen Modus, bei dem die Karte durch "Nebel des Krieges" verdunkelt wird, so dass es für den Stalker schwieriger ist, den Ausbrecher zu entdecken und zu zerstören, aber laut Recherchen handelt es sich dabei um einen 1:1-Modus.

Lustigerweise besteht das grundlegende Verhalten von 25 Ausbrechern darin, dass sie sich nicht bewegen, wo immer sie auftauchen, und dann die Stalker auf der Stelle angreifen. Da die Verfolger viel stärker sind als die Ausweichenden, führt dies dazu, dass jeder Ausweichende sofort nach seiner Entdeckung vernichtet wird.

Perspectives

Der Artikel von Huang beschreibt ein KI-Trainingsparadigma in der SCII-Umgebung, das sich darauf konzentriert, der KI beizubringen, Verfolgern auszuweichen. In ihrer Version versucht die KI, sich im "Nebel des Krieges" zu verstecken, um nicht erwischt und getötet zu werden.

Dies ist eine faszinierende Studie über Videospiele, die große Auswirkungen auf die reale Welt haben könnte. Die fortschrittlichsten militärischen Organisationen der Welt nutzen Videospiele zur Ausbildung von Menschen. Und KI-Entwickler nutzen diese Lernumgebungen, um KI-Gehirne auf das Leben in einem echten Roboter vorzubereiten.

Rein theoretisch scheint die Arbeit von Huang spannend zu sein. Aber stellen Sie sich einen Boston Dynamics-Roboter vor, der nicht nur in der Lage ist, auf einem Gelände zu rennen und zu springen, sondern auch gezielt der Verfolgung durch ein SWAT-Team zu entgehen.

Quelle: arxiv, deepmind, thenextweb

Illustrationen: goodfon