MEMS-Mikrofone mit Versiegelung Mehr Klangqualität für Sprachassistenten

MEMS-Mikrofone arbeiten mit einer Versiegelung um die Membran rauschfrei und gibt unverzerrt das Audiosignal wieder.
MEMS-Mikrofone mit Versiegelung um die Membran arbeiten nahezu rauschfrei und eignen sich u.a. für Sprachassistenten.

MEMS-Mikrofone sind kompakt und robust. Mit einer zusätzlichen Versiegelung um die Membran arbeiten sie praktisch rauschfrei und verzerren das Audiosignal nur minimal.

Die Theorie ist ganz einfach: Mikrofone wandeln Schalldruckwellen in elektrische Signale um. Allerdings sind die Eigenschaften von Mikrofonen sehr unterschiedlich und hängen von verschiedenen Parametern ab. Welchen Typ der Produktentwickler am Ende auswählt, entscheidet über die Qualität der Audiofunktionen und wie gut moderne Bedienfunktionen, etwa Sprachsteuerung, am Ende funktionieren. Die korrekte Funktionsweise kann durch eine unzureichende Qualität der bereitgestellten Audiorohdaten stark eingeschränkt werden. Die jüngste Generation der MEMS-Mikrofone mit einer gekapselten Dual-Membran-Technologie von Infineon reduziert den Rauschanteil im Audiosignal und genügt den Ansprüchen von High-End-Anwendungen. Versionen werden sowohl für den Premiumsektor als auch für Consumer-Endgeräte verfügbar sein.

Warum MEMS-Mikrofone?

MEMS-Mikrofone bieten gegenüber herkömmlichen Elektret-Kondensatormikrofonen (ECM) viele Vorteile. Zum einen sind sie in derselben Leistungsklasse kleiner, zum anderen ist die Amplitude und Phase von Audiosignalen aus mehreren Mikrofonen aufeinander abgestimmt. Außerdem ist die MEMS-Technologie robust gegen hohe Temperaturen und eignet sich für das Reflow-Löten, was die automatisierte Bestückung von Platinen erlaubt.

Auf MEMS-Technologie basierende Mikrofone werden daher zunehmend für eine Vielzahl von Anwendungen eingesetzt. Die Verkleinerung der Abmessungen und Verbesserungen der akustischen Eigenschaften haben Anwendungen ermöglicht, mit denen Informationen per Smartphone-Video oder Facetime geteilt werden können. Sprachanrufe sind mittlerweile über so kompakte Geräte wie Smartwatches möglich. Menschen kommunizieren mit digitalen Assistenten, bitten intelligente Lautsprecher ihrer Lieblingslieder abzuspielen oder steuern intelligente Haushaltsgeräte per Sprachbefehl. Darüber hinaus werden MEMS-Mikrofone zur aktiven Geräuschunterdrückung bei Langstreckenflügen oder beim Musikhören verwendet.


Eingeschränkt wird die Funktionstüchtigkeit oftmals von der Qualität der Mikrofone. Aber mit dem Xensiv-MEMS-Mikrofon IM69D130 (Bild 1) hat Infineon bereits eine neue Ära für digitale Premium-MEMS-Mikrofone eingeläutet, die bestehende Beschränkungen in der Audiosignalkette überwindet. Das IM69D130 ist für Anwendungsfälle ausgelegt, in denen geringes Eigenrauschen (hoher Signal-Rauschabstand), ein weiter Dynamikbereich, geringe Verzerrung und ein hoher akustischer Übersteuerungspunkt gefordert werden. Dies ermöglicht zum Beispiel eine äußerst präzise Spracherkennung. Die nächste MEMS-Mikrofon-Generation von Infineon mit einer speziell gekapselten Dual-Membran-Technologie geht noch einen Schritt weiter und erschließt dadurch neue Features.

Kriterien für leistungsfähige Mikrofone

Verschiedene Parameter bestimmen die Qualität von Mikrofonen. Unter dem elektrischen Rauschen im Ausgangssignal des Mikrofons versteht man beispielsweise alle Signale, die nicht aus dem gewünschten Eingangssignal stammen. Rauschen kann in der Umgebung vorhanden sein oder im Mikrofon selbst entstehen, und je höher der Rauschpegel, desto schlechter die Qualität des Audiosignals.

Verschiedene Parameter bzw. Spezifikationen beschreiben das Rauschen bei Mikrofonen:

  • Eigenrauschen ist das Rauschen, welches vom Mikrofon selbst erzeugt wird, wenn kein Tonsignal vorhanden ist. Es wird in Vrms, dBV oder dBFS (Full Scale) gemessen.
  • Äquivalent-Eingangsrauschen beschriebt den imaginären akustischen Rauschpegel, der dem elektrischen Rauschpegel am Mikrofonausgang entspricht. Er wird ausgedrückt in dB SPL (dB Sound Pressure Level).
  • Signal-Rausch-Abstand (SNR). Der SNR-Wert, angegeben in dB, ist ein Maß für das Eigenrauschen des Mikrofons relativ zum vorgesehenen oder erwünschten Eingangssignal.

Weitere wichtige Kenngrößen für die Qualität von Mikrofonen sind die Verzerrung (Total Harmonic Distortion, THD) und der Acoustic Overload Point (AOP) Bild 2. In der Realität sind Mikrofone wie alle Signalwandler nichtlinear, d.h. sie erzeugen eine gewisse Verzerrung. Grundsätzlich definiert der AOP den Punkt, an dem die THD 10 % überschreitet. In anspruchsvolleren Anwendungsbereichen wird der AOP allerdings auch als derjenige Punkt spezifiziert, an dem die THD 1 % überschreitet.

Das IM69D130 orientiert sich an diesen normalerweise bei größeren Studiomikrofonen verwendeten Indikatoren und zeigt mit 1 % THD bei 128 dB SPL beinahe bis zum AOP ein unverzerrtes Signal – für eine hörbar bessere Audioqualität.

Signal-Rausch-Abstand vergrößern

Je größer der Abstand des Mikrofons zur Quelle des Sprachsignals ist, desto geringer ist der Signal-Rausch-Abstand des Signals, wenn es in den Algorithmus zur Signalverarbeitung eingespeist wird. Vergrößert sich der vorgesehene Erfassungsabstand, sollte zum Ausgleich ein Mikrofon mit geringerem Eigenrauschen genutzt werden.

Auf der anderen Seite lässt sich der SNR-Wert erhöhen, indem gezielt unerwünschte Umgebungsgeräusche aus dem Signal gefiltert werden. Rauschunterdrückung und Richtcharakteristik lassen sich durch Verwendung mehrerer Mikrofone in Verbindung mit geeigneten Algorithmen erreichen.

Richtmikrofonsysteme, die beispielsweise mit Beamforming-Algorithmen arbeiten, können die Empfindlichkeit der Mikrofone in der gewünschten Richtung erhöhen und die gewünschten Schallquellen hervorheben. Eine ausgefeilte Methode zur Unterdrückung von Störgeräuschen sind sogenannte Blind-Source-Separation-Algorithmen. Sie ermöglichen die Unterdrückung von Störgeräuschen unabhängig von der Richtung, von der Entfernung und vom Ort der Entstehung.

Alle diese Verfahren zur Unterdrückung von Störgeräuschen profitieren von der Genauigkeit und Qualität des Mikrofons. Denn was am Beginn der Audiosignalkette verloren geht, kann nachher nicht wiedergewonnen werden. Das Mikrofon sollte daher einen möglichst großen Signal-Rauschabstand, eine geringe Verzerrung, einen linearen Frequenzgang – der auch den Phasengang verbessert – und eine geringe Gruppenlaufzeit aufweisen.