Sprachausgabe als Bestandteil moderner Mensch-Maschine-Schnittstellen Sprich mit mir!

Sprich mit mir!

 Mit welchen speziellen Eigenschaften können die neuen Geräte aufwarten?


Dr. Reber: Am wichtigsten ist hier sicherlich das Thema der Cross-Lingualität. Eine deutsche SVOX-Stimme kann in Frankreich französische Städte mit deutscher Betonung aussprechen. Dieses „Signpost-Feature“, das auch in Low-end-Geräten zu finden sein wird, nutzt die phonetischen Datenbanken der Kartenhersteller des jeweiligen Landes. Die Herausforderung dabei ist, die ursprüngliche Stimme beizubehalten. Dadurch, dass wir für fast alle existierenden Lautschriften ein entsprechendes Interface bereitstellen, machen wir das Leben für unsere Kunden sehr einfach.

 An welchen Problemen beziehungsweise deren Lösungen wird derzeit gearbeitet?


Dr. Reber: Auch hier steht die Mehrsprachlichkeit ganz vorne auf unserer Liste. In vielen Fällen ist die korrekte Aussprache ohne spezifisches Know-how sehr schwierig. Stellen Sie sich beispielsweise ein deutsches System vor, bei dem ein französischer Interpret angesagt werden soll, der englische Lieder singt. Mit der älteren Methode, aufgenommene Wave-Dateien abzuspielen, kann das nicht bewerkstelligt werden. Das SVOX-TTS-System besteht deshalb aus einer Engine und zusätzlichen Lingware-Dateien. Die Engine ist ein universelles Stück Software, das die entsprechenden Methoden und Algorithmen enthält, um Sprache zu erzeugen. Die Lingware-Dateien umfassen die charakteristischen Eigenschaften einer Sprache. Durch diese Trennung von Abläufen und Daten bietet sich die Möglichkeit, Kontext-Informationen einfließen zu lassen oder das System an neue Sprachen anzupassen. So gibt es entsprechende Lingware-Versionen für unterschiedliche Sprachen, etwa asiatische, osteuropäische oder aus dem EU-Raum, die aber alle mit der gleichen Engine funktionieren.

 Welche Vorteile bietet der Einsatz des SVOX-TTS-Systems?


Dr. Reber: In der Architektur unserer Software wird ganz klar zwischen den Abläufen und den Datensätzen unterschieden. Durch diese zusätzliche Abstraktionsebene agieren wir praktisch als „Black Box“, bei der auf der einen Seite der Text eingespeist wird und auf der anderen Seite PCM-Samples ausgegeben werden. Will etwa der Tier-1-Zulieferer den Text von „Jetzt links fahren“ nach „Und jetzt bitte links fahren“ ändern, muss er lediglich in seiner Entwicklungsumgebung ein Text-update einspielen, bei uns müssen ein paar Konfigurationsdateien angepasst werden. Bisher musste man für derartige Änderungen hunderte von Text-Bruchstücken durchforsten und abändern. Bei zwei bis drei Updates pro Entwicklung und teilweise bis zu 15 Sprachen pro System ist die Zeitersparnis gravierend, die wir hier bieten.

Ein weiterer Vorteil ist natürlich die Simulation. Sowohl unsere Engine als auch die Konfigurationsdaten sind plattformunabhängig. Die Software läuft auf einem normalen PC und wird nach Bedarf auf die Zielhardware portiert. So können unsere Kunden frühzeitig erfahren, wie das System klingt.

Dr. Martin Reber

Director Embedded Solutions und Mitglied der Geschäftsführung der SVOX AG: „Wir machen das Leben unserer Kunden sehr einfach.“ (Bild: SVOX AG)

<< vorherige Seite1 | 2