Mit der Maschine sprechen

Experten schätzen, dass bislang generell erst 10 % der sinnvollen Einsatzgebiete von Sprachverarbeitungstechnologien erschlossen sind; im industriellen Umfeld sind entsprechende Lösungen absolute Exoten. Dabei bietet sich gerade hier eine intensivere Nutzung der mittlerweile gereiften Verfahren zur Spracherkennung als Unterstützung zu bisherigen Interaktions-Techniken an.

Experten schätzen, dass bislang generell erst 10 % der sinnvollen Einsatzgebiete von Sprachverarbeitungstechnologien erschlossen sind; im industriellen Umfeld sind entsprechende Lösungen absolute Exoten. Dabei bietet sich gerade hier eine intensivere Nutzung der mittlerweile gereiften Verfahren zur Spracherkennung als Unterstützung zu bisherigen Interaktions-Techniken an.

INHALT:
Die Anforderungen in der Industrie
Die Vorteile für den Anwender
In der Kürze liegt die Würze
Das multimodal Konzept
Autor

Spracherkennung und -verarbeitung an sich ist nicht neu. Erste Anwendungen, zum Beispiel im Finanzdienstleistungs- Sektor, reichen bis in die 60er-Jahre des letzten Jahrhunderts zurück. Anweisungen wie „Sagen Sie Kontostand, um den Kontostand abzufragen“ oder „Antworten Sie mit Ja oder Nein“ entstammen den „sprechenden“ Automaten der ersten Generation und deuten zugleich an, warum dieser Art des Mensch-Maschine-Dialoges bis heute der große Durchbruch versagt geblieben ist – zu starr und unflexibel waren die Dialoge, zu lang die Wartezeiten und zu mangelhaft die Rechenleistung der dahinterstehenden Hardware. Gerade in den letzten Jahren sind die entsprechenden Technologien jedoch sichtlich gereift und haben insbesondere von den Entwicklungen auf dem ITK-Sektor profitiert. Heute, in Zeiten einer NLU-basierten (Natural Language Understanding) Multislot- Spracherkennung (Erkennung von mehreren Funktionsworten in einem natürlich gesprochenen Satz) im ASRUmfeld (Active-Speech-Recognition), unterstützt durch BargeIn-Techniken („zwischenbrabbeln“ beziehungsweise dazwischenreden) und Sprachsynthese mittels TTS-Engines (Text-to-Speech), die von einer menschlichen Stimme nahezu nicht mehr unterscheidbar sind, eröffnen sich Einsatzgebiete und Nutzungspotenziale, die lediglich durch den Mangel an Phantasie begrenzt werden.

Im Endverbraucher-Umfeld halten Sprachportale, die die Grenzen der Wahrnehmung von reinen Sprachdialogen sprengen, indem sie die Informationen visuell ergänzen, bereits Einzug. Zu nennen sind hier interaktive Städte-Informationssysteme wie etwa „Heidelberg mobil“, bei denen ortsbezogene Dienste mit Sprachein- und -ausgabe über eine visuelle Ausgabe unterstützt werden (Location-Based- Services), oder interaktiv sprachgesteuerte Führungen in Museen. Sprachbasierende POI(Point-of-Interest)- oder POS(Pointof- Sale)-Systeme folgen gleichermaßen diesem Trend. Auch in der Automobilbranche reifen derzeit innovative Ideen für die Kommunikation zwischen Mensch und „Maschine“ – zum Beispiel in Richtung dialoggesteuerter Fahrer-Informationssysteme, die den Lenker des Fahrzeugs mittels Augmented Reality relevante Informationen auf der Scheibe einblenden und sich via Sprache steuern lassen.