Universität Bonn Software blickt in die Zukunft

Was passiert als nächstes? Prof. Dr. Jürgen Gall (rechts) und Yazan Abu Farha vom Institut für Informatik der Universität Bonn.
Was passiert als nächstes? Prof. Dr. Jürgen Gall (rechts) und Yazan Abu Farha vom Institut für Informatik der Universität Bonn.

Informatiker der Universität Bonn haben eine Software entwickelt, die ein paar Minuten in die Zukunft blicken kann: Aus Videosequenzen lernt das Programm die typische Abfolge von Aktionen. Dadurch kann es in neuen Situationen treffsicher vorhersagen, was bestimmte Personen machen werden.

Die Arbeitsgruppe von Prof. Dr. Jürgen Gall möchte Computern beibringen den Zeitpunkt und die Dauer von Handlungen vorherzusagen – und zwar Minuten oder sogar Stunden, bevor sie stattfinden.

Ein Küchenroboter könnte dadurch das Kochen unterstützen indem er die Zutaten bereithält, sobald sie gebraucht werden, rechtzeitig den Backofen vorheizt – und vielleicht sogar den Küchenchef warnt, wenn der einen Zubereitungsschritt zu vergessen droht. Dagegen wüsste der automatische Staubsauger, dass er während des Hauptbetriebs der Küche dort nichts zu suchen hat und sich stattdessen um andere Räume kümmern kann.

Wir Menschen können die Handlungen anderer sehr gut vorausahnen, doch Computer sind dazu bisher noch nicht in der Lage. Nun haben die Forscher am Institut für Informatik der Universität Bonn eine selbst lernende Software entwickelt, die Zeitpunkt und Dauer künftiger Aktionen erstaunlich genau abschätzen kann – und das über Zeiträume von mehreren Minuten.

Salat-Videos als Training

Als Trainingsdaten dienten unter anderem 40 Videos, in denen Darsteller unterschiedliche Salate zubereiteten. Jede der Aufzeichnungen war rund 6 Minuten lang und enthielt im Schnitt 20 verschiedene Aktionen. Außerdem enthielten die Videos genaue Angaben, wann welche Aktion startete und wie lang sie dauerte.

Laut der Universität Bonn lernte der Algorithmus anhand dieser Salat-Videos, welche Aktionen bei der Aufgabe typischerweise aufeinander folgen und wie lange diese dauern. Anschließend wurde getestet, wie erfolgreich der Lernvorgang war. »Dazu haben wir die Software mit Videos konfrontiert, die sie zuvor noch nicht gesehen hatte.«, erläutert Gall. Auch diese Videos zeigten die Zubereitung eines Salats. Für den Test wurde dem Computer mitgeteilt, was in den ersten 20 oder 30 Prozent eines der neuen Videos zu sehen war. Auf dieser Basis musste er dann vorhersagen, was im restlichen Film passieren würde.

Laut Gall klappte das erstaunlich gut. »Die Genauigkeit lag für kurze Prognose-Zeiträume bei über 40 Prozent, sank dann aber umso mehr ab, je weiter der Algorithmus in die Zukunft blicken musste.« Bei Handlungen, die mehr als drei Minuten in der Zukunft lagen, lag der Rechner noch in 15 Prozent der Fälle richtig – wobei der Rechner sowohl Aktion als auch den Zeitpunkt richtig vorhersagen musste.

Die Studie ist nur ein erster Schritt in das neue Gebiet der Handlungsvorhersage. Zumal der Algorithmus spürbar schlechter abschneidet, wenn er selber erkennen muss, was sich im ersten Teil des Videos abspielt, und das nicht gesagt bekommt. Denn diese Analyse ist nie zu 100 Prozent korrekt – Gall spricht von »verrauschten« Daten. »Unser Verfahren funktioniert damit zwar auch«, sagt er. »Aber leider noch längst nicht so gut.«