Mit Schallwellen modellieren

Die Welt aus Klang rekonstruieren

2. November 2022, 9:55 Uhr | Heinz Arnold
MIT-Forscher haben eine Maschine-Learning-Technik entwickelt, die aus einer begrenzten Anzahl an Klangaufnahmen auf die zugrundeliegenden geometrischen Gegebenheiten der Umgebung schließen und sie modellieren kann. Der rote Punkt soll die Schallquelle anzeigen, die Farben kodieren die Lautstärke, die ein Beobachter in den Räumen wahrnimmt – gelb ist ruhiger, blau lauter.
© MIT News

Forscher simulieren, wie ein Beobachter den Klang aus einer Schallquelle an beliebigen Raumpositionen hört. Damit lassen sich nicht nur VR/AR-Systeme, sondern sogar visuelle Rekonstruktionen von Umgebungen verbessern.

Forscher am MIT und am MIT-IBM Watson AI Lab nutzen raumakustische Informationen, damit sich Maschinen besser als bisher in ihrer Umgebung orientieren können. Über die akustischen Informationen, die ihr System aufnimmt, kann es visuelle Darstellungen des Raumes generieren. Damit eröffnen sich nicht nur neue Möglichkeiten für Anwendungen in der Virtual und Augmented Reality, Maschinen können sich künftig besser in ihrer Umgebung zurechtfinden. So könnte ein Unterwasser-Roboter Dinge erkennen, die zu weit entfernt sind, als dass er sie über sein Kamera-System »sehen« könnte.  

Bisher hatten sich die Forscher zumeist nur damit beschäftigt, aus visuellen Informationen den Raum zu modellieren. »Über den Klang im Raum lassen sich aber auch wichtige zusätzliche Informationen gewinnen und es eröffnen sich neue Möglichkeiten, um den Raum besser zu modellieren«, sagt Yilun Du, Student am Department of Electrical Engineering and Computer Science (EECS) vom MIT und Mitautor des Papiers, in dem die Forscher ihr Modell beschreiben. 

In der Computer-Vision-Forschung wird maschinelles Lernen auf Basis Neuronaler Netze eingesetzt, um aus Bildern die Szenerie beispielsweise eines Zimmers zu modellieren. Die MIT-Forscher setzten dieses Modell ein, um aufzunehmen, wie sich Schallwellen durch den Raum bewegen. Es gibt zwischen visueller Wahrnehmung und der Wahrnehmung von Schall aber einen Unterschied: Wenn ein Objekt aus verschiedenen Positionen im Raum betrachtet wird, sieht es grob ungefähr gleich aus. Dagegen nehmen wir von einer anderen Raumposition aus den Klang vollkommen unterschiedlich wahr, je nach den architektonischen und geometrischen Beschaffenheiten der Umgebung. Das macht es sehr schwierig herauszufinden, welcher Raumklang an einer bestimmten Position wahrgenommen wird. 

Wenn aber eine Schallquelle und ein Beobachter die Plätze tauschen, ändert sich die Geräuschwahrnehmung nicht. Zudem hängt es stark von der lokalen Umgebung – Hindernisse zwischen Schallquelle und Beobachter, die Entfernung der Wände und ihre Beschaffenheit – ab, was genau an einer bestimmten Position gehört wird.

Die Forscher bauten diese beiden Eigenschaften in ihr Modell ein und nennen es »Neural Acoustic Field« (NAF). Die Forscher füttern das NAF mit visuellen Informationen, bringen aber auch die akustischen Spektrogramme an bestimmten Punkten des Rames ein. Sie geben an, wie der Klang sich verhält, wenn die Schallquelle und der Beobachter sich an verschiedenen Positionen des Raumes befinden. Dann sagt das Modelle voraus, wie sich Klänge anhören, wenn der Beobachter sich an beliebigen Punkten befindet. 

Wenn beispielsweise ein Lied über einen fest installierten Lautsprecher gespielt wird, dann zeigt das Modell, wie der Klang lauter wird, wenn der Beobachter sich dem Lautsprecher nähert und wie er sich verändert, wenn er das Zimmer verlässt und durch einen Gang geht. Weil das System ständig Neues über die architektonischen Gegebenheiten dazu lernt, kann es sich auf neue Umgebungen sehr viel besser einstellen, als das über bisherige Methoden möglich war. Zudem können die Computer-Vision-Modelle mit Hilfe der zusätzlichen akustischen Informationen die Umgebung auch besser visuell rekonstruieren. »Wenn nur wenige visuelle Informationen zugänglich sind, lassen sich mit dem NAF beispielsweise Kanten sehr viel besser erkennen. Das liegt daran, dass die 3D-Geometrie einer Szenerie bekannt sein muss, um ihre akustischen Eigenschaften vorhersagen zu können«, sagt Du. 

Anbieter zum Thema

zu Matchmaker+

Das könnte Sie auch interessieren

Verwandte Artikel

Massachusetts Institute of Technology