Falsche Befehle für Sprachassistenten Angriffe auf Spracherkennungssoftware Kaldi

Früher funktionierten die Angriffe nur über die Datenschnittstelle. Heute gelingen sie auch, wenn die Audiodateien über Lautsprecher abgespielt werden.
Früher funktionierten die Angriffe nur über die Datenschnittstelle. Heute gelingen sie auch, wenn die Audiodateien über Lautsprecher abgespielt werden.

Wie Sprachassistenten überlistet werden können, erforscht ein Team der Ruhr-Universität in Bochum. Mit Angriffen auf Spracherkennungssoftware wollen die Forscher Sicherheitslücken entlarven. Ziel ist es, Manipulationen aufdecken und rechtzeitig verhindern zu können.

In beliebigen Audiodateien können Forscher Sprachbefehle für Maschinen verstecken, die das menschliche Gehör nicht wahrnehmen kann. Spracherkennungssysteme verstehen diese Befehle jedoch genau. Im September 2018 berichteten Forscherinnen und Forscher vom Horst-Görtz-Institut für IT-Sicherheit der Ruhr-Universität Bochum über solche Angriffe auf das Spracherkennungssystem Kaldi, das in Alexa enthalten ist. Zunächst gelangen die als Adversarial Examples bezeichneten Angriffe nur über eine Datenschnittstelle, jetzt funktionieren sie auch auf dem Luftweg.

Um die geheimen Botschaften in die Audiodateien zu integrieren, nutzen die Wissenschaftlerinnen und Wissenschaftler das psychoakustische Modell des Hörens. »Wenn das Gehör damit beschäftigt ist, einen Ton einer bestimmten Frequenz zu verarbeiten, können Menschen für einige Millisekunden andere leisere Töne nicht mehr wahrnehmen«, erklärt Lea Schönherr aus der Arbeitsgruppe Kognitive Signalverarbeitung, die Prof. Dr. Dorothea Kolossa leitet. Genau in diesen Bereichen verstecken die Forscherinnen die geheimen Befehle für die Maschinen. Für den Menschen klingt die zusätzliche Information wie zufälliges Rauschen, für den Sprachassistenten ändert es jedoch den Sinn.

Den Raum berücksichtigen

Zunächst funktionierte der Angriff nur über eine Datenschnittstelle, mittlerweile auch über Lautsprecher. Das ist komplizierter, da der Raum, in dem die Datei abgespielt wird, den Klang beeinflusst. Beim Erstellen der manipulierten Audiodateien berücksichtigte Lea Schönherr daher die sogenannte Raumimpulsantwort. Diese beschreibt, wie ein Raum den Schall reflektiert und den Klang verändert. Mit speziellen Computerprogrammen lässt sich die Raumimpulsantwort simulieren.

»Wir können den Angriff also für einen bestimmten Raum maßschneidern«, berichtet die Kommunikationstechnikerin. »Kürzlich ist es uns aber sogar gelungen, einen allgemeinen Angriff durchzuführen, der keine Vorinformationen über den Raum benötigt, und trotzdem genauso gut oder sogar noch besser auf dem Luftweg funktioniert.« Künftig plant die Wissenschaftlerin auch Tests mit auf dem Markt erhältlichen Sprachassistenten.

Sicherheitslücke schließen

Da sprachgesteuerte Systeme aktuell nicht in sicherheitskritischen Bereichen im Einsatz sind, sondern lediglich dem Komfort dienen, können die Adversarial Examples derzeit keinen großen Schaden anrichten. Daher sei es noch früh genug, die Sicherheitslücke zu schließen, meinen die Bochumer Forscher. Im Exzellenzcluster Casa, kurz für Cyber Security in the Age of Large-Scale Adversaries, kooperiert die Arbeitsgruppe Kognitive Signalverarbeitung, die die Angriffe entwickelt hat, mit dem Lehrstuhl für Systemsicherheit von Prof. Dr. Thorsten Holz, dessen Team an Gegenmaßnahmen dazu arbeitet.

MP3-Prinzip als Gegenmaßnahme

Der IT-Sicherheitsforscher Thorsten Eisenhofer will Kaldi beibringen, für Menschen nicht hörbare Bereiche in Audiosignalen auszusortieren und nur das zu hören, was übrig bleibt. »Wir können natürlich nicht verhindern, dass Angreifer Audiodateien manipulieren«, sagt er. Sein Ziel ist es, dass die Manipulation aber in den für Menschen hörbaren Bereichen platziert werden müsste; so ließen sich die Angriffe nicht so leicht verstecken. Dafür nutzt Eisenhofer das MP3-Prinzip.

MP3-Dateien werden komprimiert, indem für Menschen nicht hörbare Bereiche gelöscht werden – genau das ist es, was die Verteidigungsstrategie gegen die Adversarial Examples auch vorsieht. Eisenhofer kombinierte Kaldi daher mit einem MP3-Encoder, der die Audiodateien zunächst bereinigt, bevor sie zum eigentlichen Spracherkenner gelangen. Die Tests ergaben, dass Kaldi die geheimen Botschaften tatsächlich nicht mehr verstand, es sei denn sie wurden in die für Menschen wahrnehmbaren Bereiche verschoben. »Das veränderte die Audiodatei aber merklich«, berichtet Thorsten Eisenhofer. »Die Störgeräusche, in denen die geheimen Befehle versteckt sind, wurden deutlich hörbar.«