Startseite > Automation > Hallo Computer, jetzt reden wir mal!

Die Zukunft der Sprachassistenten

Hallo Computer, jetzt reden wir mal!

21. November 2017, 7:19 Uhr | Von Antje Müller, dpa

▶ Diesen Artikel anhören

Fortsetzung des Artikels von Teil 1

Wird der Alltag so bequemer?

Ein weiteres Konkurrenzprodukt zu den bereits vorhandenen Smartspeakern soll 2018 auf den Markt kommen: der HomePod von Apple. Der iPhone-Hersteller positioniert sein Gerät eher als Alternative zur Stereo-Anlage. Der Lautsprecher klinge besonders gut, heißt es. Er hat mit Siri ein Sprachassistenz-System an Bord.

All diese Teile sind keine Notwendigkeit, eher Spielerei. Ihre Anbieter versprechen, den Alltag bequemer zu machen. Über die Verknüpfung mit einer digitalen Steuerung via Internet im eigenen Zuhause – Smart Home – lassen sich Fernseher, Jalousien und Lampen per Sprachbefehl dirigieren.

Auch Autoinsassen kommen ins Reden mit dem Computer: Assistenten wie die Technologie Dragon des Sprachsoftware-Unternehmens Nuance, Systeme wie CarPlay von Apple und Android Auto von Google sind in diversen Modellen eingebaut. Sie weisen den Weg zum geöffneten Supermarkt und spielen die gewünschte Musik. Wenn das Benzin nicht bis zum angegebenen Ziel reicht, erklingen warnende Worte.

Banken arbeiten mit Sprachassistenten, bei denen man telefonisch den Kontostand abfragen und Geld überweisen kann. Die Systeme kennen nach einer Übungsphase die Stimme und Sprechweise eines Kunden. Und sie erkennen diese später auch wieder.

Die Anfänge: Radiologen diktieren

Die Anfänge der maschinellen Spracherkennung liegen im medizinischen Bereich. »Die Diktierfunktion für Radiologen war die erste Anwendung, die wirklich etwas geändert hat«, sagt Dietrich Klakow. Er ist Professor für Sprach- und Signalverarbeitung an der Universität des Saarlandes. »Das war in den 1990ern und funktionierte aus einem einfachen Grund: Radiologen diktieren viel. Das ist Teil ihres Berufs, und sie diktieren sehr gut. Ohne Ähms und Öhs, das flutscht einfach so raus«, erklärt der Wissenschaftler.

Die Software erkennt Wörter, die sie gelernt hat, und verwandelt sie in Text, unter anderem mit Hilfe von Statistik: »Wenn ich sage ‘guten Morgen, meine Damen und ...’, dann kann man das nächste Wort vorhersagen«, sagt Nils Lenke, Forschungschef bei Nuance. Und die Software könne es auch. »Wenn ich aber sage ‘Guten Tag, Frau ..’", dann kann das einer von 100 000 Nachnamen in Deutschland sein.« Ähnlich wie Menschen lernen Computer über Regeln, die ihnen der Mensch beigebracht hat. Sie analysieren Text und erkennen wiederkehrende Muster.

Kann ein Programm aus gesprochener Sprache einen Text formulieren, folgt der nächste Schritt: dem Satz eine Bedeutung zu geben. Die Systeme werden mit so vielen Beispielen gefüttert, dass sie lernen, den Text zu verstehen. Beginnt eine Frage mit dem Wort »Wie«, erkennt das System: Hier ist eine Beschreibung gefragt. Fragt jemand »Wie viele«, hat das System gelernt: Eine Zahl wird gesucht.

Text bekommt Bedeutung

Sprachsteuerung und maschinelles Lernen haben in den vergangenen Jahren enorme Fortschritte gemacht, berichtet Google-Manager Scott Huffman. Die Worterkennung funktioniert immer besser. Und die Geschwindigkeit beim Sprechen sei ein großer Vorteil gegenüber dem Eintippen. »Die Herausforderung ist, die Kommunikation so natürlich wie möglich zu gestalten«, sagt Huffman.

Assistenten können mittlerweile sogar über ein Kurzzeitgedächtnis verfügen. Ist beispielsweise eine Fahrt von München nach Hamburg geplant, kann man den Google Assistant fragen: »Wie lange brauche ich nach Hamburg?« Er nutzt den aktuellen Standort, berechnet den Verkehr auf der Route und gibt die Antwort. Und er merkt sich, worum es geht und nimmt dieses Wissen mit in das folgende Gespräch.

Lautet dann die zweite Frage »Wie ist das Wetter dort?«, gibt der Assistent die Vorhersage für die Stadt an der Elbe an. Das mag einfach klingen. Ist es aber nicht. Bis vor kurzem hätte die zweite Frage noch »Wie ist das Wetter in Hamburg?« lauten müssen. Mittlerweile erinnert sich der Assistent daran: Es geht um Hamburg. Ein Schritt hin zu einer natürlichen Kommunikation mit Maschinen.

Natürlich klingen mittlerweile auch die Stimmen – weil dahinter oft Menschen stecken. Um einen virtuellen Sprachassistenten zu bauen, der jedes beliebige Wort sagen kann, muss die Software weiter mit Wörtern gefüttert werden. Dazu stehen Sprecher Hunderte von Stunden in Tonstudios und nehmen oft zusammenhanglose Sätze in verschiedenen Stimmungen auf: fröhlich, ernst, neutral, fragend. Diese dienen dazu, alle vorkommenden Phoneme, kleinste Einheiten eines Lautsystems, abzudecken. Das heißt: Die synthetische Stimme kann später Beliebiges sagen – und es klingt wie ein Mensch.