Durchbruch in der dreidimensionalen Audio-Codierung Viele Lautsprecher – ein Übertragungskanal

Dem Mehrkanalton gehört die Zukunft – zumindest wenn es um Heimkinoanlagen und Multimedia- Anwendungen geht. Ein neues dreidimensionales Codierungsverfahren namens VoiCode, das die Aufnahmesituation exakt berücksichtigt, packt erstmals professionellen Raumklang in einen einzigen Übertragungskanal.

Auch die Elektroakustik kennt ihre großen Figuren, und sehr oft ist die Selbstverständlichkeit von heute die schlichte, wenngleich große Idee von gestern: Was heute als „Stereo“ in aller Munde ist – dazu zählt wissenschaftlich betrachtet auch die Wiedergabe elektroakustischer Signale durch mehrere Lautsprecher –, meldete der Brite Alan Dower Blumlein im Dezember 1931 unter dem Titel „Improvements in and relating to Sound-transmission, Sound-recording and Sound-reproducing Systems“ zum Patent an. Es war nur eines von 128 Patenten, die er in seinem kurzen Leben schuf.

Hinter dem Stereo-Patent verbirgt sich der Grundgedanke, mittels dekorrelierter Signale sowohl Räumlichkeit als auch die räumliche Verteilung der Schallquellen abzubilden. Für diese Dekorrelation waren bislang wenigstens zwei Mikrofone notwendig, und bislang galt als ehernes Prinzip, was Michael Dickreiter 1987 so formulierte: „Es ist grundsätzlich nicht möglich, aus einer Mono-Aufnahme ein Stereo- Signal zu gewinnen, das mit einem wirklichen Stereo-Signal vergleichbar wäre.“ Sämtliche so genannte „pseudostereophone“ Verfahren, die sich demzufolge auf ein einzelnes monophones Eingangssignal beschränken, scheiterten an drei scheinbar unüberwindlichen Hindernissen:

  • Erstens wanderten die pseudostereophon abgebildeten Schallquellen in funktioneller Abhängigkeit von der Frequenz. Der britische Mathematiker Michael Anthony Gerzon begegnete Anfang der Neunzigerjahre diesem Phänomen – bei Beschränkung auf eine Abbildungsrichtung, welche eine Streuung zuließ – mit kaskadierten komplexwertigen Gain-Funktionen bzw. einer frequenzabhängigen Rotationsmatrix.
  • Zweitens kam es zu einem Abbildungsverlust der Standorte der aufgenommenen Schallquellen.
  • Drittens wurden die akustischen Parameter des Aufnahmeorts zumeist verfälscht wiedergegeben.

Eine Reduktion moderner Mehrkanaltechniken (Surround) auf zwei Kanäle ist mit der Mid-Side-Technik (M-S-Technik) möglich. Bei dieser handelt es sich ebenfalls um eine Entwicklung Blumleins von 1934, bei der – mittels der Äquivalenz L = (M + S) / 20,5 bzw. R = (M – S) /20,5 aus der Kombination eines Mid-Mikrofons (M) mit einem um 90° nach links versetzten Side-Mikrofon (S) mit Achter- Richtcharakteristik – für den linken Kanal L und den rechten Kanal R eine intensitätsstereophone Abbildung gewonnen werden kann. Diese stereophone Abbildungsform hat den Vorteil grundsätzlich weitestgehender Nachbearbeitungsmöglichkeiten.

Bisherige Verfahren ignorierten die Aufnahmebedingungen

Paradigmen sind immer zu hinterfragen, da sie prinzipiell auf klassischen Lösungsmodellen – behaftet mit unvermeidlichen Sackgassen – beruhen. Seit den Fünfzigerjahren – und dies blieb bis heute die Ausgangsposition für zahllose Patente zur Pseudostereophonie – versuchte man zumeist durch unterschiedliche Signalverarbeitung einzelner Frequenzbänder einen Eindruck von Räumlichkeit zu vermitteln. Wobei die Summe der Transferfunktionen idealerweise gleich 1 sein sollte, um das ursprüngliche Mono-Signal rekonstruieren zu können. Weitere Versuche betrafen:

  • die nachträgliche Modellierung einer Räumlichkeit (Stereo-Reverb), auf die der Zuhörer – psychoakustisch bedingt – mit Ermüdungserscheinungen reagiert,
  • die Separierung von Ausgangssignalen mittels komplexwertiger Gain- Funktionen, die in beschränktem Umfang auch eine nachträgliche räumliche Zuordnung – mittels erwähnter frequenzabhängiger Rotationsmatrix – gestatten (Robert Orban und Michael Anthony Gerzon), oder neuerdings
  • die Separierung von Ausgangssignalen mittels Clustering-Verfahren, zumeist unter Einsatz von Fourier-Transformationen, bei denen Schallquellen stochastisch isoliert und anschließend neu synthetisiert werden. Das erstmals auf der AES 2007 in Wien vorgestellte Verfahren arbeitet allerdings unter Verlust der ursprünglichen räumlichen Parameter und funktioniert nicht in Echtzeit.

Allen Vorgangsweisen haftet insgesamt derselbe systematischer Fehler an: Die ursprünglichen Aufnahmebedingungen werden nicht oder nur rudimentär ins Kalkül gezogen. Eine mathematische Gewichtung einzelner möglicher Faktoren der Pseudostereophonie hinsichtlich der Aufnahmebedingungen ist jedoch möglich – und genau auf diesem Ansatz beruht mein Modell. Anstelle der oben erwähnten, a priori artifiziellen Ansätze werden dabei – unter Interpolation der räumlichen Bedingungen einer klassischen stereophonen Abbildung – komplementär zwei oder mehrere kompatible Ausgangssignale moduliert, die einer klassischen M-S-Aufnahme gleichkommen. Ähnlich der M-S-Technik, die umfassende Nachbearbeitungsmöglichkeiten hinsichtlich der Stereo- Basis durch die Variation der Amplitude des S-Signals zulässt, bestehen auch bei meinem Verfahren dieselben wünschenswerten Varianzen, ohne dass es dabei zu einer grundsätzlichen Veränderung der räumlichen Parameter kommt. Das resultierende Signal lässt sich hinsichtlich des Korrelationsgrades beliebig zwischen –1 und +1 variieren.

Das Ergebnis ist verblüffend: Erstmals stehen mehrere Schallquellen deutlich separiert im Raum und entsprechen ihrer ursprünglichen Verteilung. Auch der Raum selbst wird adäquat abgebildet.

Die physikalische Analyse der erzeugten Signale liefert faszinierende Ergebnisse: Das Stereo-Sichtbild entspricht eindeutig jenem einer erstklassigen Stereo-Aufnahme mit guter Basisbreite. Ebenso weist ein eingesetzter Korrelationsgradmesser das gewonnene Signal als kompatibel aus. Das heißt, die Summe aus linkem und rechtem Kanal – wie sie etwa für ein Mono-Signal vonnöten ist, das über Kurz-, Mittel- oder Langwelle ausgesendet wird – führt nicht zu Auslöschungen. Auch die Aufbereitung der Signale für eine Wiedergabe auf 5.1-, 7.1- und sogar 10.1-Systemen ist möglich und bereits praktisch erprobt.

Freilich ist der industrielle Einsatz eines solchen Systems nur möglich, sofern alle Parameter, die zu einer professionellen stereophonen Abbildung führen, auch automatisch ermittelt werden können. Dies ist Gegenstand zweier neuer weltweiter Patentanmeldungen, die auf der Basis stochastischer Modelle solche Parametrierungen in Echtzeit realisieren und anhand existenter Parameter auch stereophone Signale – ebenfalls in Echtzeit – in ein einkanaliges Signal zuzüglich seiner neuen stereophonen Parameter umcodieren, die wenige Bits umfassen.