Startseite > Automotive > Infotainment > Multimodale Erkennung von Sprache und Blickrichtung

Nuance Autoforum 2018

Multimodale Erkennung von Sprache und Blickrichtung

30. April 2018, 11:41 Uhr | Gerhard Stelzer

▶ Diesen Artikel anhören

Fortsetzung des Artikels von Teil 1

Multi-Passagier-Erkennung und kognitive Arbitrierung

In einem modifizierten Mercedes Kleinbus hatten die Nuance-Tüftler nochmals die Spracherkennung »Just Talk«, die ohne Schlüsselwort oder Knopfdruck auskommt, sowie die Blickerkennung auf Basis des tobii-Sensors, diesmal mit Augmented-Reality-Anzeige der Blickrichtung in der Windschutzscheibe eingebaut.
Darüber hinaus wurde der Kleinbus mit Mikrofonen an allen Sitzplätzen ausgestattet, so dass das Infotainment-System sowohl die Sprachmuster verschiedener Sprecher, als auch die Position erkennen kann. Beispielweise kann damit ein Sprecher in der letzten Reihe mit dem Kommando »mir ist kalt«, die hintere Heizzone aktivieren. Dank Sprachmuster und -positionserkennung kann der Fahrer auch bestimmte Kommandos nur für sich zulassen. Andere Gespräche im Bus werden dann ignoriert.

Jobangebote+ passend zum Thema

Regional Key Account (m/w/d) für Elektronische Bauteile

KOA Europe GmbH, Dägeling

Alle Jobangebote im Elektroniknet Karrierebereich anzeigen

Auf dem Weg, OEMs automobile Assistenten anzubieten, musste sich Nuance auch damit befassen, woher dieser Assistent seine Informationen oder Dienste bekommt. Hier kommt die kognitive Arbitrierung ins Spiel. Der Nuance-Assistent muss verstehen, was der Nutzer möchte und dann in intelligenter Weise diese Anfrage an die geeignete Stelle weitergeben. Möchte beispielsweise der Fahrer unterwegs ein Produkt in einem Online-Shop bestellen, dann muss der Assistent in der Lage sein, den richtigen Dienst zu identifizieren und den Wunsch einzusteuern. Auch das ist wieder ein Einsatzgebiet für KI.

MBUX — der neue Benchmark im Infotainment

Mercedes-Benz möchte mit der neuen A-Klasse einen neuen Standard in der Spracherkennung im Auto setzen. Und das dürfte Daimler mit der neuesten Spracherkennung- und Synthese-Software »Nuance Dragon Drive« auch gelungen sein, wie eine Demo zeigte. Nach der Aktivierung der Spracherkennung durch die Schlüsselworte »Hey Mercedes« kann der Fahrer fast alle Komfortfunktionen im Auto mit natürlicher Sprache steuern: »Öffne das Schiebedach«, »Mir ist kalt« oder »Speichere die Radiostation auf Position acht«. Die A-Klasse gehorcht aufs Wort.

Die Spracherkennung verfolgt dabei einen Hybridansatz. Einfachere Sprachkommandos decodiert das Erkennungssystem an Bord unter Einsatz von künstlicher Intelligenz. Für ausreichend Rechenleistung sorgt der eingebaute Parker-Prozessor von Nvidia mit KI-Funktionen. Komplexere Sprachkonstrukte, die das Bordsystem nicht erkennt, werden in der Cloud analysiert und zurückgespielt. So lernt das Bordsystem ständig hinzu.