In Haushalten wohlbekannt, haben Sprachassistenten auf KI-Basis auch in Industrie und Medizin große Vorteile. Besonders wichtig ist dort jedoch Echtzeitfähigkeit, Flexibilität und Eignung für komplexe Sprachbefehle. Zudem müssen sie vollständig lokal funktionieren, unabhängig von Cloud und Servern.
In vielen Haushalten haben Sprachassistenten wie »Alexa« von Amazon und »Siri« von Apple als Keyword-Spotting-Lösungen (KWS) den Alltag grundlegend verändert. Nach einem sogenannten Wakeword (»Alexa!«, »Hey Siri«), das die Applikation aktiviert, übermittelt diese den Wunsch des Bedienenden an einen entfernten Server, der den Sprachbefehl analysiert und anschließend das Auswertungsergebnis an das Gerät zurücksendet. Auf diesem Weg werden Musikwünsche erfüllt, ein Film auf die Playlist gesetzt oder das Weihnachtsgeschenk für die Liebste bestellt. Ähnlichkeiten in der Technologie finden sich auch in der Industrie und Medizintechnik, wo KWS an Bedeutung zunimmt. Durch die Erfassung und Nutzung von Sprache lassen sich schon heute Prozesse beschleunigen und effizienter gestalten und sogar Leben retten.
»Die Vorteile sind unübersehbar«, erläutert Viacheslav Gromov, Gründer und Geschäftsführer des KI-Anbieters AITAD. »Wenn Mitarbeitende die Maschine in der Produktion mit ihrer Stimme steuern, dann bedeutet das mehr Flexibilität. Sie können die Geräte aus der Ferne bedienen und müssen keine Knöpfe mehr drücken oder auf dem Bildschirm der Maschine ihre Eingabe eintippen.« Dies bedeute auch die Vermeidung von Keimen und Bakterien, ein wichtiger Aspekt in der Medizin. »Auch ein gerufener Befehl ‚Stop‘ ist schneller als zur Maschine zu laufen und diese anzuhalten.«
Die Übertragung von Sprachsignalen an entfernte Server führt zu Latenzzeiten, die in sicherheitsrelevanten Umgebungen nicht akzeptabel sind. Ebenso spielen das Manipulations- und Ausfallrisiko einer Netzwerkverbindung eine Rolle. Der Einsatz in sicherheitskritischen Umgebungen in Industrie und Medizin erfordert Lösungen, die lokal und in Echtzeit arbeiten. Hier kommen innovative Sprachsteuerungsmodelle ins Spiel, die mit Embedded-KI umgesetzt werden. Hierbei werden nicht nur einzelne Wakewords erkannt, sondern bis zu 30 vordefinierte Begriffe, was komplexe Befehle ermöglicht. Ein Schlüsselwort aktiviert das System. Anschließend können komplexe Kombinationen dieser vordefinierten Wortgruppe gesprochen und von der KI ausgewertet werden, die zusammen mit den Mikrofonen auf dem gleichen kleinen Board sitzt (»Embedded-KI-Systemkomponente«).
Beispiele für solche Sprachbefehle (hier mit »Roboter« als Wakeword) sind:
»Roboter, starte Programm A auf Maschine 3«
»Roboter, Förderband 6 anhalten«
»Roboter, Motor 4 in Maschine 3, erhöhe die Drehzahl um 40 Prozent«
»Roboter, Rollstuhl, jetzt links abbiegen«
»Roboter, Not aus«
»Entscheidend ist hier ein hohes Sicherheitsniveau, das durch die lokale Verarbeitung der Sprachdaten - ohne Cloud oder Server – gewährleistet wird«, betont Viacheslav Gromov. »Und die Effizienz, weil die Befehle in Echtzeit direkt im Chip ausgewertet werden und die Maschine dadurch schneller reagiert.«
Unternehmen können ihre Sprachsteuerung individuell konfigurieren, angefangen von den Wakewords bis hin zur Wortgruppe. Dies ermöglicht maßgeschneiderte Systeme, die auch in mehreren Sprachen verfügbar sind. Bei Bedarf lassen sich synthetisch erzeugte Sicherheitsabfragen integrieren. Die möglichen Anwendungen sind vielfältig, von der Steuerung von Maschinen bis hin zur Notauslösung per Sprachbefehl.
Die Einsatzmöglichkeiten für Sprachsteuerungen sind fast unbegrenzt:
• Im Operationssaal können Chirurgen das Hochfrequenzskalpell per Sprachbefehl starten, justieren und wieder abschalten.
• Berührungsloses Steuern von Maschinen und Geräten in Produktion und Krankenhäusern.
• Not-Aus per Sprachbefehl erspart im Ernstfall den Spurt zum Not-Aus-Schalter.
• Menschen mit Assistenzbedarf können beispielsweise den Rollstuhl per Sprache steuern.
Innovative autarke Embedded-KI-Sprachsteuerungslösungen arbeiten nicht nur vollständig lokal und in Echtzeit, sondern bewähren sich auch in rauen Umgebungen. Die KI wird nicht nur mit den zu erkennenden Worten, sondern auch mit Störgeräuschen trainiert, um eine zuverlässige Spracherkennung sicherzustellen, selbst wenn es in der Umgebung laut ist. Die Integration eines zusätzlichen Mikrofons ermöglicht es, den Standort des Sprechers zu erkennen und störende Geräusche zu eliminieren (Beamforming).
»Die neue Sprachsteuerung wird die Bedienung in Industrie und Medizin nachhaltig verändern und bestimmen«, resümiert Viacheslav Gromov. »Anfragen aus Industrie und Medizin nehmen deutlich zu. Wir haben selbst eine Lösung entwickelt, die Unternehmen in die Lage versetzt, schon heute ihre Produkte mit der Technologie auszustatten und damit eine Vorreiterrolle in Wirtschaft und Business einzunehmen.« Die Lösung zeichne sich durch eine hohe Robustheit auch gegen Störgeräusche aus und werde individuell auf die Kundenanforderungen zugeschnitten. »Weil wir auf eine Vorentwicklung zurückgreifen, können wir unsere lokale Sprachsteuerung mit zirka 30 zu erkennenden Worten kostengünstig anbieten.«