Weiterer Durchbruch KI schlägt Menschen in Teamspielen

Sogar auf Basis von Reaktionszeiten von Menschen spielen die KI-Agenten besser als Menschen. Den Daten liegt eine Reaktionszeit von 267 ms zugrunde.
Sogar auf Basis von Reaktionszeiten von Menschen spielen die KI-Agenten besser als Menschen. Den Daten liegt eine Reaktionszeit von 267 ms zugrunde.

Im Schach und Go haben KI-Systeme Menschen geschlagen, jetzt gewinnen sie auch Spiele, in denen sie gegen ein Team antreten müssen.

Eine Gruppe des Unternehmens DeepMind verwendete den Modus »Capture the flag« (»Erobere die Flagge«) des Multiplayer-Spiels »Quake III Arena«. Wie sie ihrem KI-System beigebracht haben, »Quake III Arena« erfolgreich zu spielen, erklären die Mitglieder des Teams von DeepMind um Max Jaderberg in »Science«.

Jeder Mensch verfolgt prinzipiell eigene Ziele und stimmt seine Handlungen drauf ab. Menschen können aber auch in Gruppen zusammen kommen und sogar Organisationen und Gesellschaften bilden, um gemeinsam Aufgaben zu lösen. »Multi-agent-learning« heißt das in der KI-Sprache. Viele individuelle Agents müssen getrennt handeln und gleichzeitig lernen, mit anderen Agenten zusammen zu arbeiten.  Das ist ein sehr schwer zu durchschauendes Problem, weil die sich aufeinander anpassenden Agenten die gesamte Umwelt ständig ändern.

Was dahinter steckt, versuchten die Forscher am Beispiel von »Quake III Arena« zu ergründen. Sie trainierten Agenten, die individuell lernen und agieren, die aber in Teams spielen müssen – mit und gegen andere Agenten, bei denen es sich um KI-Systeme oder Menschen handeln kann.

Bei dem Computerspiel »Quake III Arena« müssen sich zwei Teams die Flagge des jeweiligen Gegners schnappen und in die eigene Basis bringen. Sie können ihre Gegner durch Laserschüsse außer Gefecht setzen, diese gelangen nach kurzer Zeit über ihre eigene Basis wieder zurück ins Spiel. Die symmetrisch angelegten Räume und Gänge sollen beiden Teams dieselben Chancen geben und werden nach dem Zufallsprinzip generiert.

Nach den CTF-Regeln läuft das Spiel auf Grundlage einer gegebenen Karte ab. Die Forscher von DeepMind haben diese Regel noch etwas interessanter gemacht: Die Karte ändert sich von Spiel zu Spiel. Die Agenten sind also  gezwungen, generelle Strategien lernen zu müssen. Sich nur eine Karte zu merken, reicht nicht.

Dabei bewegen sich die Spieler in der Ich-Perspektive eines Teammitglieds durch das virtuelle Gelände. Sie müssen mit ihren Gruppenmitgliedern zusammenarbeiten und ihre Gegner in Schach halten.

Nach rund 200.000 Spielen waren die KI-Agenten im Schnitt besser als die besten Menschen. Zuletzt nach rund 450.000 Spielen siegten sie deutlich: Wenn zwei menschliche Spieler gegen zwei KI-Agenten antraten, eroberten letztere durchschnittlich 16 Flaggen mehr.

KI-Agenten reagierten auf das Auftauchen eines Gegners im Durchschnitt nach 258 Millisekunden, Menschen nach 559 Millisekunden. Doch selbst wenn die Forscher die Reaktionszeit der KI-Agenten verlangsamten, blieben die künstlichen den menschlichen Spielern überlegen.

Dazu haben die Forscher sich auf drei Grundideen fokussiert:

1.    Die Agenten werden gemeinsam in Populationen trainiert anstatt einzeln.  

2.    Jeder Agent einer Population erlernt eigene interne Belohnungssignale, so er eigene Ziele individuell bestimmen kann, etwa die Flagge zu erobern.

3.    Die Agenten arbeiten auf Basis von zwei Zeitskalen: langsam und schnell. Das verbessert ihre Fähigkeit, konsistente Handlungsabläufe unter Nutzung eines gemeinsamen Speichers zu erzeugen.  

Der Lernprozess basiert auf Recurrent Neuronal Networks. Ein Agent, der das Training durchlaufen hat – die Forscher nennen ihn »For-The-Win«-Agent (FTW) – lernt »Quake III Arena« auf sehr hohem Niveau zu spielen.

Künftig werden die Forscher ihre Methoden über »Capture the Flag« hinaus auf den vollen Umgang von »Quake III Arena« anwenden. Jetzt schon deuten die Ergebnisse darauf hin, dass die Agenten mit weiteren Spiel-Modi und Karten zu Recht kommen und die Spielfähigkeiten der Forscher herausfordern. Insgesamt zeigen die Arbeiten der Forscher, dass sich über Multi-Agent-Training KI-Systeme weiter verbessern lassen. KI-Agenten werden zusammen mit Menschen in einem Team arbeiten können.