Sprachausgabe als Bestandteil moderner Mensch-Maschine-Schnittstellen Sprich mit mir!

Der Erfolg von mobilen und ab Werk verbauten Navigationslösungen geht einher mit einer rasanten Entwicklung der Bedienkonzepte. Ein Baustein ist dabei die Sprachausgabe, die neben der Zielführung auch zur Vermittlung weiterer Informationen genutzt werden kann, etwa des Vorlesen von Kurznachrichten oder E-Mails. Im Interview erklärt Dr. Martin Reber, bei der SVOX AG für Kundenprojekte zuständig, die Rolle des Sprachdialogdesigns innerhalb der Entwicklung von Mensch-Maschine-Schnittstellen.

Sprachausgabe als Bestandteil moderner Mensch-Maschine-Schnittstellen

Der Erfolg von mobilen und ab Werk verbauten Navigationslösungen geht einher mit einer rasanten Entwicklung der Bedienkonzepte. Ein Baustein ist dabei die Sprachausgabe, die neben der Zielführung auch zur Vermittlung weiterer Informationen genutzt werden kann, etwa des Vorlesen von Kurznachrichten oder E-Mails. Im Interview erklärt Dr. Martin Reber, bei der SVOX AG für Kundenprojekte zuständig, die Rolle des Sprachdialogdesigns innerhalb der Entwicklung von Mensch-Maschine-Schnittstellen.

 Herr Dr. Reber, welchen Stellenwert hat die Sprachausgabe bei Ihnen?

Dr. Reber: Sprachausgabe ist die Schlüsselkompetenz der SVOX AG. Allerdings bieten wir mit unserem SVOX-ExpertSpeech-System eine universelle Sprachausgabe, die frei konfigurierbar sowohl aufgezeichnete Textbausteine ausgeben kann als auch Text-to-Speech (TTS) beherrscht. Sprachausgabe ist dabei in Form eines Navigationssystems in praktisch jedem Fahrzeug enthalten.

 Welche Rolle spielt das Sprachdialogdesign bei der Entwicklung heutiger und zukünftiger Automobile?

Dr. Reber: Eine heutige Head-Unit ist ein sehr komplexes System mit begrenzter Rechenleistung. Die Sprachausgabe soll auch dann nicht ins Stocken geraten, wenn beispielsweise im Hintergrund eine neue Route berechnet wird und gleichzeitig auf die Festplatte oder ein DVD-Laufwerk zugegriffen wird. Unsere Sprachausgabe benötigt je nach Konfiguration zwischen 20 und 30 MIPS Rechenleistung, was in etwa der Hälfte der Vorgaben der Hersteller entspricht. Möglich wird dies nur durch eine intelligente Software-Architektur (Bild 1) und einer optimal konfigurierbaren TTS, das heißt, die Anwendung liefert lediglich ein Stück Text, welches wir in Sprache überführen und mit aufgezeichneten Ansageteilen kombinieren. Positiver Nebeneffekt dieser Architektur ist, dass sich unsere Software vergleichsweise einfach in bestehende Systeme integrieren lässt, in der Regel innerhalb einer Woche.

In Zukunft wird die Wichtigkeit des Dialogdesigns an sich noch weiter zunehmen. Zum einen finden sich bereits heute neue Funktionen wie etwa SMS-Reader und zum anderen müssen in der nächsten Generation sprachliche, visuelle und haptische Kanäle verbunden werden. Das Schlagwort dazu heißt Multimodalität.

 Wie wichtig ist „Voice Branding“ für die Automobilhersteller?

Dr. Reber: Voice Branding, also das Bereitstellen von exklusiven Stimmen, ist bei den OEMs ein zentrales Thema, um den Wiedererkennungswert zu erhöhen. Speziell im Premiumsegment müssen die Stimme und auch das „Wording“ eine bestimmte Atmosphäre erzeugen, die den High-end-Anspruch erfüllt.Wichtig ist aber auch, dass die Sprachausgabe richtig funktioniert und in mehrdeutigen Situationen korrekt reagiert. Beispielsweise kann „9 A“ einmal die „Autobahnausfahrt 9 A“ bezeichnen, in einer empfangenen E-Mail aber „9 Ampere“ bedeuten – und soll dann auch so ausgegeben werden.

 Wie beurteilen Sie die Konvergenz von Geräten aus dem Bereich der Konsumelektronik und ins Fahrzeug integrierten Lösungen?


Dr. Reber: Gibt es diese Konvergenz wirklich? Ich sehe eher eine Spezialisierung der einzelnen Geräte, etwa spezielle Navigationslösungen für Autos, Fahrräder oder zum Wandern. Integrierte beziehungsweise fest eingebaute Systeme sind problematisch hinsichtlich Wartung und Updates, außerdem sind deren Eigenschaften aufgrund des längeren Produktlebenszyklus oft denen der mobilen Geräte nicht gewachsen. Beide Produktgruppen werden weiter existieren, sich gegenseitig sicher beeinflussen oder voneinander lernen. Wir versuchen dabei, die Entwickler von fest eingebauten Systemen durch die Architektur des SVOX-ExpertSpeech-Systems zu unterstützen. Diese hilft, unnötige Schleifen bei Implementierung oder der Integration mehrerer Sprachen zu vermeiden.

Fortsetzung (Seite 1/2)12nächste Seite >>