Startseite > Kommunikation > Alexa und Co. hören mehr mit, als wir denken

Smart Home

Alexa und Co. hören mehr mit, als wir denken

1. Juli 2020, 8:56 Uhr | Tobias Schlichtmeier

Dieser Sprachassistent hört nicht nur auf das eigentliche Triggerwort »Amazon«, sondern springt zum Beispiel auch an, wenn die Wörter »Am Sonntag« gesprochen werden.

Alexa, Siri oder Assistant – die Bandbreite an digitalen Assistenten fürs tägliche Leben wächst. Forscher untersuchten jüngst, welche Wörter die Sprachassistenten triggern. Mehr als gedacht, so viel sei verraten.

▶ Diesen Artikel anhören

»Alexa: Wie wird das Wetter heute«? – ein Klassiker unter den Fragen an einen Sprachassistenten. Es ist »In«, es ist bequem und es macht Spaß, Wissen über Siri und Co. ganz einfach abzurufen. Jedoch es gibt Wörter, bei denen die digitalen Assistenten anspringen, ohne unser Wissen. Welche Wörter das sind, haben Forscher der Ruhr-Universität Bochum (RUB) und des Bochumer Max-Planck-Instituts (MPI) für Cybersicherheit und Schutz der Privatsphäre untersucht.

Wenn bei Ihnen ein solches »Helferlein« im Wohnzimmer steht, ist die von den Forschern erstellte Liste von englischen, deutschen und chinesischen Begriffen sicher interessant. Sie enthält alle Wörter, die von verschiedenen Sprachassistenten wiederholt als Aufforderung zum Zuhören fehlinterpretiert wurden. Immer wenn die Systeme anspringen, schneiden sie eine kurze Sequenz des Gesagten mit und übermitteln die Daten an den Hersteller, teilweise ohne dass die Nutzer das bemerken.

Angestellte der Konzerne transkribieren und überprüfen die mitgelieferten Audioschnipsel. So können Fetzen von privaten Unterhaltungen bei Firmen landen. Eine Auswahl der Trigger-Wörter sowie anschauliche Videos zeigen die Forscher auf ihrer Homepage.

Alle großen Hersteller im Test

Die IT-Expertinnen und -Experten testeten die Sprachassistenten von Amazon, Apple, Google, Microsoft und Deutscher Telekom sowie drei chinesische Modelle von Xiaomi, Baidu und Tencent. Sie spielten ihnen stundenlang deutsches, englisches und chinesisches Audiomaterial vor, unter anderem einige Staffeln aus den Serien »Game of Thrones«, »Modern Family« und »Tatort« sowie Nachrichtensendungen. Außerdem waren professionelle Audio-Datensätze, die zum Training von Sprachassistenten verwendet werden, dabei. Alle Sprachassistenten waren mit einer Diode versehen, die registrierte, wann die Aktivitätsanzeige des Sprachassistenten aufleuchtete, das Gerät also sichtbar in den aktiven Modus schaltete und somit ein Trigger auftrat.

Außerdem registrierte das Setup, wann ein Sprachassistent Daten nach außen sendete. Immer wenn eines der Geräte in den aktiven Modus schaltete, protokollierten die Forscher, bei welcher Audiosequenz das der Fall war. Manuell werteten sie später aus, welche Begriffe den Sprachassistenten getriggert hatten.

»Daiquiri« täuscht Siri

Aus den Daten erstellte das Team eine erste Liste von über 1.000 Sequenzen, die Sprachassistenten fälschlicherweise triggern. Abhängig vom Betonen des Wortes hört Alexa im Englischen beispielsweise auf »unacceptable« und »election« oder Google auf »OK, cool«. Im Deutschen lässt sich Amazon beispielsweise mit »Am Sonntag« und Siri mit dem Begriff »Daiquiri« täuschen.

Um zu verstehen, was die Begriffe zu Fehltriggern macht, zerlegten die Forscher die Wörter in ihre kleinstmöglichen Klangeinheiten und identifizierten die Einheiten, die häufig von den Sprachassistenten verwechselt wurden. Basierend auf den Erkenntnissen erzeugten sie neue Trigger-Wörter und zeigten, dass sie die Sprachassistenten ebenfalls anspringen lassen.

»Die Geräte sind mit Absicht etwas liberal programmiert, weil sie ihre Menschen verstehen können sollen. Sie springen also eher einmal zu viel als zu wenig an«, erklärt die Forscherin Dorothea Kolossa.

Ab in die Cloud

Im nächsten Schritt untersuchten die Wissenschaftler genauer, wie die Hersteller Fehltrigger auswerten. Typisch ist ein zweistufiger Prozess. Zunächst analysiert das Gerät lokal, ob in der wahrgenommenen Sprache ein Trigger-Wort enthalten ist. Vermutet das Gerät, das Aktivierungswort gehört zu haben, fängt es an, das derzeitige Gespräch für eine weitere Analyse mit höherer Rechenleistung in die Cloud des Herstellers hochzuladen.

Identifiziert die Cloud-Analyse den Begriff als Fehltrigger, bleibt der Sprachassistent stumm, lediglich seine Kontrollleuchte leuchtet kurz auf. In dem Fall können bereits mehrere Sekunden Audiomitschnitt bei den Herstellern landen, wo sie Mitarbeiter transkribieren, um solch einen Fehltrigger in der Zukunft zu vermeiden.

Aus Privacy-Sicht ist das natürlich bedenklich, weil teils sehr private Unterhaltungen bei Fremden landen können, meinen die Forscher. Aus Engineering-Sicht ist das Vorgehen hingegen nachvollziehbar, denn die Hersteller könnten die Geräte lediglich mithilfe solcher Daten verbessern. Die Hersteller müssen einen Spagat zwischen Datenschutz und technischer Optimierung schaffen.