Künstliche Intelligenz Das Ende der schlechten Lippensynchronisation

Daimler und Xilinx entwickeln gemeinsam effiziente AI-Lösungen für künftige Mercedes-Benz Fahrzeuge
Dank künstlicher Intelligenz könnte schlechte Lippensynchronisierung der Vergangenheit angehören.

Schlecht synchronisierte Filme könnten bald Geschichte sein: Die Forscher des Max-Planck-Instituts für Informatik entwickeln ein Softwarpaket, das den Gesichtsausdruck von Schauspielern an eine synchronisierte Filmversion anpassen kann.

Fans ausländischer Filmen kennen das bestimmt: Die Bewegung der Lippen passt nicht immer zum Gesprochenen – egal wie gut die Synchronsprecher sind. Bisher half da nur der Griff zur Originalversion, doch das funktioniert nur, wenn die nötigen Sprachkenntnisse vorhanden sind. Die Technik des Max-Planck-Instituts für Informatik könnte schlechter Lippensynchronisation nun ein Ende setzten.

Die entwickelte Software passt den Gesichtsausdruck von Schauspielern an eine synchronisierte Filmversion an. Zusätzlich kann die Software Blick- und Kopfhaltung in Videokonferenzen korrigieren und eröffnet damit neue Möglichkeiten der Video-Postproduktion und visuellen Effekte.

Die Arbeit mit dem Titel »Deep Video Portraits« wurde auf der Konferenz SIGGRAPH 2018 am 16. August in Vancouver vorgestellt. Im Gegensatz zu früheren Methoden kann Deep Video Portraits das gesamte Gesicht einschließlich Augen, Augenbrauen und Kopfposition in Videos animieren, wobei die aus der Computergrafik bekannten Steuerelemente verwendet werden. Wird der Kopf des Schauspielers bewegt, kann die Software einen plausiblen statischen Videohintergrund synthetisieren.

Hyeongwoo Kim vom Max-Planck-Institut für Informatik erklärt: »Wir arbeiten mit modellbasierten 3D-Gesichtsaufnahmen, um die detaillierten Bewegungen der Augenbrauen, des Mundes, der Nase und der Kopfposition des Synchronsprechers in einem Video aufzuzeichnen. Das System überträgt diese Bewegungen auf den Ziel-Akteur im Film, um die Lippen und Gesichtsbewegungen exakt mit dem neuen Ton zu synchronisieren.«

Die Forschung befindet sich derzeit im Proof-of-Concept-Stadium und muss noch in die Praxis umgesetzt werden. Trotz umfangreicher Postproduktionsanstrengungen produziert die Synchronisierung von Filmen in Fremdsprachen laut Professor Christian Theobalt vom Max-Planck-Institut für Informatik noch immer ein Missverhältnis zwischen dem Schauspieler auf der Leinwand und der synchronisierten Stimme. Doch der Ansatz von Deep Video Portraits soll es dagegen ermöglichen, das Aussehen des Schauspielers realistisch zu verändern, indem Kopfhaltung, Mimik und Augenbewegungen übertragen werden.

Dr. Christian Richardt, Co-Autor des Beitrags, vom Motion-Capture-Forschungszentrum CAMERA der University of Bath, fügt hinzu: »Die Technik könnte auch für die Postproduktion in der Filmindustrie eingesetzt werden, wo die computergrafische Bearbeitung von Gesichtern in den heutigen Spielfilmen bereits weit verbreitet ist.« Ein Beispiel hierfür ist der Film »Der seltsame Fall des Benjamin Button«. Hier wurde das Gesicht des Hauptdarstellers, Brad Pitt, in fast jedem Frame des Films durch eine modifizierte Computergrafikversion ersetzt wurde. Diese Arbeit bleibt ein sehr zeitaufwendiger Prozess, der oft viele Wochen Arbeit von ausgebildeten Künstlern erfordert.

Mit Deep Video Portraits könnte ein solcher visueller Effekt künftig jedoch mit weniger Aufwand erzeugt werden. Laut Richardt könne mit dem Ansatz sogar die Platzierung des Kopfes und sein Gesichtsausdruck problemlos verändert werden, um den Kamerawinkel zu ändern oder den Rahmen einer Szene subtil zu verändern, um die Geschichte besser zu erzählen.

Darüber hinaus kann die Software auch in anderen Anwendungen eingesetzt werden, zum Beispiel könnte in Video- und VR-Telekonferenzen Blick und Kopfhaltung korrigiert werden, sodass eine natürlichere Gesprächssituation erreicht wird.

Die Software ermöglicht viele neue Anwendungen in der visuellen Medienproduktion, aber die Forscher sind sich auch über das Missbrauchspotenzials moderner Videobearbeitungstechniken im Klaren. Dr. Michael Zollhöfer von der Stanford University erläutert: »Die Medienindustrie hat seit vielen Jahren Fotos mit Bildbearbeitungssoftware nachbearbeitet. Mit der ständigen Verbesserung der Videobearbeitungstechnologie müssen wir auch die Videoinhalte, die wir täglich konsumieren, kritischer betrachten, insbesondere wenn es keinen Herkunftsnachweis gibt. Wir glauben, dass der Bereich der digitalen Forensik in Zukunft viel mehr Aufmerksamkeit erhalten sollte und auch erhalten wird, um Ansätze zu entwickeln, die die Authentizität eines Videoclips automatisch nachweisen können. Das wird zu immer besseren Methoden führen, die auch solche Veränderungen aufdecken, die wir Menschen nicht mit eigenen Augen erkennen können.«

Mit derselben Technik entwickelt das Forschungsteam parallel dazu Neuronale Netze, die darauf trainiert sind, synthetisch erzeugte oder bearbeitete Videos mit hoher Präzision zu detektieren – Fälschungen lassen sich dadurch viel leichter erkennen. Derzeit ist es nicht geplant, die Software öffentlich zugänglich zu machen.