Startseite > Automation > Sprachtechnologie als neue HMI-Dimension

Sprachassistenten für Profi-Anwendungen

Sprachtechnologie als neue HMI-Dimension

1. Juli 2023, 8:30 Uhr | Rudolf Sosnowsky

Sprachassistenten erschaffen in vielerlei Anwendungen, auch in der Industrie, eine zusätzliche HMI-Dimension, sozusagen einen weiteren Sinn. Doch was müssen Sprachassistenten für professionelle Anwendungen können, und wie funktionieren sie? Für den schnellen Einstieg stehen jetzt Starterkits bereit.

▶ Diesen Artikel anhören

Wer schon mal im ICE im ersten Abteil hinter der Führerkabine gesessen hat, kennt vielleicht die Computerstimme »Zugbeeinflussung! Zugbeeinflussung!«. Damit wird die Wahrnehmung des Lokführers, der bereits haptisch und visuell mit dem Zug kommuniziert, um eine weitere, akustische Ebene erweitert, die so seine unmittelbare Aufmerksamkeit erreicht.

Im Smart Home gehören Gespräche mit Computerassistenten – zuerst als nette Spielerei betrachtet – inzwischen zur Normalität: Das Steuern von Musik, Licht, Weckern oder Erinnerungs-Timern und das Füllen von Einkaufslisten ist mit dem Medium Sprache einfach und bequem. Während die Sprachbedienung anfangs »nur« einen ähnlichen Komfortgewinn wie die drahtlose Fernbedienung des TV-Geräts bot, ist mittlerweile eine Infrastruktur entstanden, in der sie einen echten Mehrwert bietet. Amazon mit Alexa als Vorreiter unterstützt die Entwicklung von Spracherkennung. In dem neuen, MASSIVE genannten Projekt, stellt Amazon Datensätze in 51 Sprachen zur Verfügung, auf die Entwickler zurückgreifen können, um ihre Algorithmen und Systeme einem Test zu unterziehen.

Matchmaker+ Anbieter zum Thema

zu Matchmaker+

Starterkit für Sprachassistenten: Die wichtigsten Merkmale
Die wichtigsten Eigenschaften des Starterkits von Hy-Line und Voice Inter Connect für Sprachassistenten sind: ➔ Touchless – berührungslose und hygienische Bedienung ➔ Industry Grade – hohe Zuverlässigkeit und Verfügbarkeit, Echtzeitfähigkeit ➔ »Do what I mean« – natürlichsprachliche Kommunikation ➔ Privacy by Design – hohe Datensicherheit durch lokale Ausführung ➔ Zero Coding – einfachste webbasierte Sprachdialogerstellung ➔ Text to Speech – echter Dialog mit Sprachsynthese

Starterkit für Sprachassistenten: Die wichtigsten Merkmale

Die wichtigsten Eigenschaften des Starterkits von Hy-Line und Voice Inter Connect für Sprachassistenten sind:
➔ Touchless – berührungslose und hygienische Bedienung
➔ Industry Grade – hohe Zuverlässigkeit und Verfügbarkeit, Echtzeitfähigkeit
➔ »Do what I mean« – natürlichsprachliche Kommunikation
➔ Privacy by Design – hohe Datensicherheit durch lokale Ausführung
➔ Zero Coding – einfachste webbasierte Sprachdialogerstellung
➔ Text to Speech – echter Dialog mit Sprachsynthese

Die Bedeutung der Sprachtechnologie

Dem Medium Sprache mit dem gesprochenen Wort als Eingabekommando und der synthetisierten Sprache als Ausgabe spricht man einen festen Platz neben dem traditionellen Display- und Touchscreen-Interface zu. Das Consulting-Unternehmen Gartner erstellt Studien für die Zukunft verschiedener Technologien. Der so genannte »Gartner Hype Cycle« stellt dabei die Lebensphasen einer Technologie in fünf Stufen dar, die von der anfänglichen Euphorie über die Ernüchterung bei der Realisierung bis hin zum produktiven Einsatz reichen. Die Spracherkennung hat bereits die Phase der Produktivität erreicht; auf einem guten Weg dorthin ist die Sprachsynthese. Noch Entwicklungsarbeit ist in das Verstehen und die Interpretation natürlicher Sprache zu legen.

Eine große Bedeutung kommt der nicht rein algorithmischen, sondern zusätzlich durch künstliche Intelligenz (KI) unterstützten Spracherkennung zu. Doch was brauchen wir für den Einsatz in einem professionellen Umfeld Anderes als die gängigen Sprach-assistenten, die man auch mal bitten kann, einen Witz zu erzählen? Im Sinne eines »guten« HMI mit ergonomischem Design erwartet man eine sprecherunabhängige Erkennung des gesprochenen Wortes, möglichst in mehreren Sprachen, genau hinzuhören und auch wegzuhören (manchmal wird die Sprachbedienung getriggert, wenn das Schlüsselwort fälschlich erkannt wird) sowie tolerant bezüglich der Grammatik zu sein. Füllwörter wie »bitte«, »einmal«, »ja, genau« und Räuspern sollen ignoriert werden und nicht zu Fehlbedienungen führen.

Die Verwendung von KI auf der Hardwareplattform des Geräts kann schwierig sein: Umfangreiche Schaltungen mit hoher Leistungsaufnahme und entsprechendem Preis sind nicht ökonomisch realisierbar. Stattdessen verwendet man die KI in der Trainingsphase des Sprachsystems. Das Ergebnis wird dann auf die Hardwareplattform übertragen, die dann nur noch als Execution Engine agiert und daher mit wenigen Ressourcen in Hardware und Software auskommt.

Corona als Treiber von Sprachtechnologie

Die Pandemiesituation hat die Tendenz verstärkt, nicht mehr jedes Bedienelement berühren zu wollen. Kann eine Aufgabe durch Sprachbedienung erledigt werden, ist dieser Kontakt überflüssig. Sind die Hände nicht frei, nicht sauber oder feucht, kann ebenfalls die Sprache weiterhelfen. Möchte man auch noch »den Kopf freihaben« und das Ergebnis nicht auf einem Display ablesen, hilft die Ausgabe in synthetischer Sprache. Die aktuelle Technologie ist weit über das hinaus, was in den 80er-Jahren auf Homecomputern unter »Sprachausgabe« verstanden wurde. Prosodie (Sprachmelodie) und Phrasierung klingen sehr natürlich; Satzzeichen strukturieren den angesagten Text.

Hy-Line verfolgt mit der HMI-5.0-Strategie die Absicht, möglichst viele Sinne zur Interaktion zwischen Mensch und Maschine einzusetzen – dort, wo es sinnvoll ist. So steht die Partnerschaft zu Voice Inter Connect aus Dresden unter dem Vorzeichen, das gesprochene Wort in die Kommunikation einzubeziehen, sei es als Eingabemedium zur Steuerung der Maschine oder als Ausgabe für deren Status. Eine wichtige Rolle spielt dabei auch das GUI, das eingegebene Befehle und deren Auswirkungen für Anwender aufbereitet darstellt.

Glossar
API – Application Program Interface: Software, die die grundlegende Kommunikation zwischen Anwendungsprogramm und der Hardware oder anderen Softwaremodulen zur Verfügung stellt. GUI – Graphical User Interface: Designerische Gestaltung der Bedienelemente auf einem Display zur Erzielung einer guten UX (User eXperience). HMI – Human Machine Interface: Computergestützte Schnittstelle zwischen Mensch und Maschine. Meist als Touchscreen-Terminal für Ein- und Ausgabe ausgeführt. JSON – JavaScript Object Notation: Datenaustauschformat, das für Menschen einfach zu lesen und zu schreiben und für Maschinen einfach zu parsen (Analysieren von Datenstrukturen) und zu generieren ist.	MQTT– Message Queuing Telemetry Transport: Offenes Netzwerkprotokoll für die Kommunikation von Maschinen untereinander. SDK – Software Development Kit: Softwareumgebung für eine beschleunigte Entwicklung eines Anwendungsprogramms. SUI – Speech User Interface: Kommunikation über Spracheingabe und -ausgabe. TTS – Text to Speech: Beispielsweise in ein T erminalfenster eingegebener Text wird als Audio (über den Lautsprecher) ausgegeben. UX – User eXperience: Beschreibt, wie einfach (ergonomisch, physisch) ein Gerät zu bedienen ist.

Glossar

API – Application Program Interface:
Software, die die grundlegende Kommunikation zwischen Anwendungsprogramm und der Hardware oder anderen Softwaremodulen zur Verfügung stellt.
GUI – Graphical User Interface: Designerische Gestaltung der Bedienelemente auf einem Display zur Erzielung einer guten UX (User eXperience).
HMI – Human Machine Interface: Computergestützte Schnittstelle zwischen Mensch und Maschine. Meist als Touchscreen-Terminal für Ein- und Ausgabe ausgeführt.
JSON – JavaScript Object Notation: Datenaustauschformat, das für Menschen einfach zu lesen und zu schreiben und für Maschinen einfach zu parsen (Analysieren von Datenstrukturen) und zu generieren ist.

MQTT– Message Queuing Telemetry Transport: Offenes Netzwerkprotokoll für die Kommunikation von Maschinen untereinander.
SDK – Software Development Kit: Softwareumgebung für eine beschleunigte Entwicklung eines Anwendungsprogramms.
SUI – Speech User Interface: Kommunikation über Spracheingabe und -ausgabe.
TTS – Text to Speech: Beispielsweise in ein T erminalfenster eingegebener Text wird als Audio (über den Lautsprecher) ausgegeben.
UX – User eXperience: Beschreibt, wie einfach (ergonomisch, physisch) ein Gerät zu bedienen ist.

Natural Language Understanding zur Spracheingabe

Die Ansprüche an eine bestimmte Technologie sind im professionellen Einsatz ungleich höher als im Smart-Home-Umfeld. Eine nahe 100 Prozent liegende Verfügbarkeit und Zuverlässigkeit spielen hier eine eminente Rolle. Ist es im Smart Home nur eine Unannehmlichkeit, wenn das Licht mal nicht auf Kommando eingeschaltet wird (»Entschuldigung, das Nachtlicht ist gerade nicht erreichbar«), so ist es im professionellen Einsatz undenkbar, die OP-Leuchte nicht neu fokussieren oder den Braten im Dampfgarer nicht abschalten zu können.

Eine Analyse zeigt, dass bei Systemen, die an eine Cloud angebunden sind, Latenzen auftreten, die zu hoch sind. Offline-Systeme sind hier klar im Vorteil: nicht nur arbeitet das System deterministisch und in Echtzeit, auch bleiben die Daten lokal und damit privat. Ohne den Zwang zu einer Anbindung an eine leistungsfähige Cloud, in der die Anfragen ausgewertet und bearbeitet werden, funktioniert das Gerät auch dort, wo eine Internet-Abdeckung fehlt, Daten nur mit einer mäßigen Bandbreite übertragen werden oder der Cloud-Anbieter seinen Service einstellt.

Das hier vorgestellte Konzept arbeitet hybrid: Das rechenintensive Training, bei dem die Sprachmodelle erstellt werden, findet in einem leistungsfähigen Server in der Cloud statt. Nur das Er- gebnis wandert in den lokalen Speicher und wird im Betrieb zur Erkennung der Eingabe verwendet. Dadurch reicht dem lokalen Rechner ein moderater Durchsatz aus, was sich in niedriger Wärmeentwicklung und Leistungsaufnahme positiv niederschlägt. Das bedeutet, dass die Sprachbedienung in der Ausführung rein im lokalen System läuft und ohne Anbindung zur Laufzeit auskommt.

Text-to-Speech-Sprachausgabe

Sprachsynthese macht aus der Sprachsteuerung mit Fokus auf Spracheingabe ein vollumfängliches Assistenzsystem mit Sprachausgabe. So können sich Bediener oder Servicetechniker aus einer hinterlegten Bedienungsanleitung mithilfe der passenden Suchbegriffe die relevanten Textpassagen heraussuchen und vorlesen lassen. Während der Fehlerbehebung bleiben die Augen weiter auf die Maschine gerichtet.

Auch hier hilft die KI bei der Erstellung der Synthesemodelle mit Machine-Learning-Algorithmen, um bei der Text-to-Speech-Ausgabe Fließtexte in eine dynamische, natürlich klingende Sprachausgabe umzuwandeln. Wie beim Training der Spracherkennung ist der Prozess hier ebenso zweistufig: Training in der Cloud, Interpretation und Wiedergabe nur lokal – damit bleiben Daten vertraulich und sicher.

Warum ist die Bedienung mit Sprache so interessant und wichtig? Sie ist einfach zu verstehen und intuitiv zu nutzen. Nach dem Wake Word, mit dem das System aufgeweckt und zum Zuhören aufgefordert wird, können in natürlicher Sprache Befehle gegeben oder Informationen abgerufen werden. Im Idealfall ist es möglich, das System als »Do-What-I-Mean«-Maschine zu nutzen. Ein Argument für die Bedienung ist auch, dass man per Sprache schneller kommuniziert als über ein anderes Eingabemedium wie etwa die Tastatur. Der Weg im Gehirn vom Gedanken zum Sprachzentrum ist kürzer als der Umweg, die Fingermuskeln in der richtigen Reihenfolge anzusteuern und damit eine Tastatur zu bedienen.