MEMS-Mikrofone Wenn Technik aufs Wort hört

Für uns Menschen ist das gesprochene Wort die einfachste und natürlichste Art zu kommunizieren. Aber, dass uns elektronische Systeme aufs Wort gehorchen, ist oft frustrierend. Eine neue Generation von MEMS-Mikrofonen soll dies ändern.

Moderne Audiogeräte und -systeme können ihr Potenzial oft nicht entfalten, weil die unzureichende Qualität der bereitgestellten Rohdaten bei der Spracheingabe (VUI, Voice User Interface) diese stark einschränken. Schlüsselparameter wie das Rauschen und Verzerrungen entscheiden über die Qualität des Mikrofons und damit der Zielapplikation. MEMS-Mikrofone bieten gegenüber herkömmlichen Elektret-Kondensatormikrofonen (ECM) bereits viele Vorteile.

Mit dem XENSIV IM69D130 hat Infineon ein neues digitales Premium-MEMS-Mikrofon vorgestellt, das die bestehenden Beschränkungen in der Audiosignalkette überwinden soll. Dafür bietet das IM69D130 ein geringes Eigenrauschen (hoher Signal-Rausch-Abstand), einen weiten Dynamikbereich, geringe Verzerrung und einen hohen akustischen Übersteuerungspunkt. Diese Spezifikationen ermöglichen unter anderem eine äußerst präzise Spracherkennung. Die nächste MEMS-Mikrofongeneration mit einer speziell gekapselten Dual-Membrantechnologie geht noch einen Schritt weiter. Sie soll mit noch höherer Performance und Robustheit auch erweiterte Features erschließen.

Verschiedene Parameter bzw. Spezifikationen beschreiben das Rauschen bei Mikrofonen. Das sogenannte Eigenrauschen erzeugt das Mikrofon selbst, auch wenn kein Tonsignal vorhanden ist. Dies wird in Volt, dBV (Dezibel Volt) oder dBFS (Dezibel Full-Scale) gemessen. Demgegenüber bezeichnet das äquivalente Eingangsrauschen den imaginären akustischen Rauschpegel, der dem elektrischen Rauschpegel am Mikrofonausgang entspricht. Es wird ausgedrückt in dBSPL (Dezibel Sound Pressure Level). Ein entscheidendes Kriterium ist der Signal-Rausch-Abstand (Signal-to-Noise Ratio, SNR, Bild 1). Dieser Wert, angeben in dB, ist ein Maß für das Eigenrauschen des Mikrofons relativ zum vorgesehenen oder erwünschten Eingangssignal.

Weitere wichtige Kenngrößen für die Qualität von Mikrofonen sind die Verzerrung (Total Harmonic Distortion, THD) und der akustischen Übersteuerungspunkt (Acoustic Overload Point, AOP, Bild 1). Mikrofone sind wie alle Signalwandler in Wirklichkeit nichtlinear, sie erzeugen stets eine gewisse Verzerrung. Grundsätzlich ist der AOP der Punkt, an dem der THD-Wert 10 % überschreitet. Für anspruchsvollere Anwendungsbereiche wird der AOP allerdings auch als derjenige Punkt spezifiziert, an dem der THD-Wert 1 % überschreitet. Das IM69D130 orientiert sich an diesen normalerweise bei größeren Studiomikrofonen verwendeten Performance-Indikatoren und zeigt mit 1 % THD bei 128 dBSPL beinahe bis zum AOP ein unverzerrtes Signal – für eine hörbar bessere Audioqualität.

Herausforderung Sprachsteuerung

Eine Sprachschnittstelle (VUI) ermöglicht die Kommunikation zwischen Menschen und Geräten (Smartphones, TV-Systemen oder Smart-Home-Geräten) mittels Sprache. Das grundsätzliche Konzept basiert dabei auf der Erfassung der Audiosignale mit einem Mikrofon oder -Array (Bild 2). Danach verarbeitet ein Applikationsprozessor den Sprachbefehl und verbessert die Signalqualität mithilfe von Strahlformung (Beam Forming), Rauschunterdrückung oder anderen Algorithmen. Das so bearbeitete Signal wird dann üblicherweise an eine Cloud gesendet und über das VUI oder ein anderes Gerät (Lautsprecher) wieder ausgegeben.

Bei einer Sprachsteuerung sollte sich der Systementwickler stets darauf konzentrieren, dass sie für den Endnutzer zuverlässig und einfach zu bedienen ist. Um das zu erreichen, müssen Systementwickler die tatsächliche praxisgerechte Anwendung berücksichtigen, beispielsweise die wahrscheinliche Entfernung des Benutzers vom Mikrofon und die zu erwartende Lautstärke von Hintergrundgeräuschen. Nur dann kann er das System so auslegen, dass es bestmögliche Leistungen erzielt.

In der Praxis hat die Sprachsteuerung – insbesondere wenn sich der Sprecher nicht in unmittelbarer Nähe befindet – meist mit Schwierigkeiten in Bezug auf die Akustik zu kämpfen, zum Beispiel mit Hintergrundgeräuschen (Cocktail-Party-Effekt), Nachhall, Echounterdrückung und der Position des Mikrofons. Daher reicht es nicht, einfach nur eine gute Spracherkennungssoftware zu haben. Jedes Element des Systems sollte optimierte Leistungen liefern, damit die Qualität nicht leidet. Das Mikrofon soll das Spracherkennungssystem mit dem bestmöglichen Eingangssignal versorgen. Ein qualitativ hochwertiges Eingangssignal hilft, den sprachlichen Inhalt des eingehenden Geräusches zu analysieren. Zu den entscheidenden Parametern gehören dabei das Rauschen, die Verzerrung, der Frequenzgang und die Phase.

Oft sind jedoch Sprachassistenten nur für standardisierte Laborbedingungen konzipiert. Im Alltag erlebt man daher nicht selten, dass man seinen Sprachbefehl schreien oder vielfach wiederholen muss. Anbieter von Spracherkennungssystemen verbessern daher ständig ihre Prozessoren und Algorithmen für Sprachbenutzeroberflächen, die realistischen Szenarien gewachsen sind. In seiner neuesten Version kann Alexa beispielsweise erkennen, ob man mit leiser Stimme spricht und die Antwort flüstert, damit schlafende Familienmitglieder nachts nicht gestört werden. Bald soll es möglich sein, mit Sprachbefehlen Leuchten oder Fernsehgeräte in verschiedenen Räumen auszuschalten – Voraussetzung sind auch hier leistungsfähige Mikrofone.