Nuance Autoforum 2018 Multimodale Erkennung von Sprache und Blickrichtung

Das MBUX-System der neuen Mercedes-Benz A-Klasse setzt derzeit den Standard für die Sprachbedienung im Auto.
Das MBUX-System der neuen Mercedes-Benz A-Klasse setzt derzeit den Standard für die Sprachbedienung im Auto.

Menschen verständigen sich üblicherweise multimodal, d.h. durch Sprache, Gestik oder Zeigen auf Objekte. Nuance hat nun ein System entwickelt, das Sprache und Blickrichtung eines Autofahrers verknüpft und interpretiert. Was steckt dahinter?

Der Spracherkennungsspezialist Nuance Communications beschränkt sich längst nicht mehr auf Spracherkennung allein, sondern arbeitet daran, weitere Sinne in die Interaktion von Mensch und Maschine zu integrieren. Auf dem hauseigenen Autoforum 2018 am Lago Maggiore demonstrierte das US-Unternehmen seine neuesten Technologien rund um Spracherkennung und –synthese sowie eine Kombination mit der Erkennung der Blickrichtung eines Autofahrers. Bei Sprachtechnologien ist Nuance seit Jahren Marktführer im automobilen Umfeld: 2017 wurden weltweit 93,5 Mio. Fahrzeuge produziert, davon sind 51,4 Mio. mit Sprachfunktionen ausgestattet. Wiederum 45 Mio. davon basieren auf Nuance-Software.
Arnd Weil, Senior VP und General Manager der Sparte Automotive bei Nuance, definierte auf dem Autoforum das Ziel der Autosparte neu: dem Autohersteller in Zukunft nicht nur Sprachtechnologien anzubieten, sondern komplette automobile Assistenten.
Auf dem Autoforum präsentierte Nuance dazu eine Reihe neuer Technologien:
•    Sprachdialog-Technik mit künstlicher Intelligenz (conversational AI)
•    Multimodale Interaktion mit dem Nutzer
•    Spracherkennung ohne Aktivierung per Knopfdruck oder Schlüsselwort (Just Talk)
•    Multi-Passagier-Erkennung
•    Kognitive Arbitrierung

Was bedeutet »Conversational AI«?

Seit mehr als 20 Jahren ist Nuance mit Spracherkennung im Auto präsent. Mittlerweile nutzen mehr als 60 Automarken die Technik des Unternehmens und mehr als 200 Mio. Autos sind damit ausgestattet. Die Spracherkennung wurde über die Jahre immer weiter verfeinert, bis Nuance vor zwei Jahren anfing, neuronale Netze und maschinelles Lernen einzusetzen. Erst diese Anwendung von künstlicher Intelligenz ermöglicht es, natürliche Sprache zu erkennen und zu verstehen (NLU —Natural Language Unterstanding). Die Spracherkennungs-Software »Dragon Drive« verfolgt dabei einen Hybridansatz mit lokal verarbeiteten Basisfunktionen und Cloud-Unterstützung für komplexere Sprachkonstrukte.

Bilder: 15

Auto gehorcht auf Wort und Blick

Nuance Autoforum 2018: Was wir in naher Zukunft von unseren Autos erwarten dürfen.

Der Weg zur »Multimodalen Interaktion« und »Just Talk«

In der zwischenmenschlichen Kommunikation spielt nicht nur die Sprache eine Rolle. Ebenso hilfreich sind Gesten oder das Zeigen mit Fingern auf ein Objekt oder mit den Augen durch hinsehen. Diese natürlichen Kommunikationsprozesse möchte Nuance mit multimodaler Interaktion nachbilden. So hat der Spezialist für Spracherkennung nun einen Prototyp entwickelt, der auch Blickrichtungen per Eye-Tracking erkennen kann.
Auf einer Probefahrt am Lago Maggiore demonstrierte Nuance den Prototypen eines Infotainmentsystems, das kontinuierlich dem Fahrer lauscht und Sprachkommandos mit der Technik »Just Talk« versteht, die ohne Startkommando per Schlüsselwort oder Knopfdruck auskommt. Die Blickrichtung des Fahrers erkennt ein IR-Sensorbalken des schwedischen Partners tobii. So kann der Fahrer beispielsweise ein markantes Gebäude in den Blick nehmen und gleichzeitig das System fragen: »Was ist das für ein Gebäude?« Das Infotainment-System identifiziert anhand der Blickrichtungserkennung und der Navigationsdaten das betreffende Objekt und liefert dann dazu eine Beschreibung.
Dieser Vorgang hört sich einfach an, erfordert aber gleichzeitig neben den Sensordaten (Sprache und Blick), eine Synchronisation beider Signale, die Ermittlung der exakten Position des Fahrzeugs, die Berechnung eines 3D-Modells (Fahrzeug, Fahrer und Objekt) sowie die Fusion sämtlicher Informationen und eine Objektidentifikation. Bei der Lösung dieser komplexen Aufgaben arbeitet Nuance eng mit dem DFKI in Kaiserslautern zusammen. Als Hardware kommt im Prototyp eine Nvidia PX2-Plattform zum Einsatz.