Schwerpunkte

Sprachsteuerung

Hallo Anwendung!

06. Oktober 2020, 13:57 Uhr   |  Cliff Ortmeyer

Hallo Anwendung!
© metamorworks| Shutterstock

»Alexa, mach das Licht aus«, »Okay, Google …«: Der Erfolg intelligenter Sprachassistenten macht Spracherkennung und -steuerung für Projekte und Anwendungen aller Art immer attraktiver. Doch welche Möglichkeiten gibt es eigentlich, Sprachsteuerung integrieren?

Seit es Computer gibt arbeiten Entwicklerinnen und Entwickler daran, die Interaktion zwischen Mensch und Maschine zu verbessern. Die meisten Schnittstellen waren jedoch ein Kompromiss – zwischen Benutzerfreundlichkeit und feingliedriger Kontrolle. Jedenfalls bis zum Aufkommen der aktuellen Touchscreen-Varianten. Sie bieten Benutzern eine natürlichere und intuitivere Steuerung, die selbst Kinder leicht verstehen.

Allerdings eignen Touchscreens sich nicht für alle Anwendungen. So sind sie vor allem bei kleineren Geräten umständlich. Auch bei Installationen im Freien sind sie durch Umwelteinflüsse und Vandalismus bedroht. Sie können ein Sicherheitsrisiko darstellen und setzen für jede Interaktion räumliche Nähe voraus. Außerdem verursachen sie zusätzliche Kosten für Anwendungen, die häufig ohnehin schon teuer sind. Notwendig ist also eine Steuermöglichkeit, die ebenso intuitiv funktioniert, aber ohne die genannten Nachteile auskommt. Für solche und viele weitere Anwendungsfälle bietet sich eine Spracherkennung und -steuerung an.

Echo sei Dank

Die Idee, Technik nur per Sprache zu steuern, ist nichts Neues. Seit Beginn des Computerzeitalters wurde versucht, Sprache dafür zu nutzen – mit meist überschaubarem Erfolg. Bis vor nicht allzu langer Zeit der Durchbruch im Bereich der Sprach­erkennungsalgorithmen in Verbindung mit einer größeren Rechenleistung gelang. Seither haben Entwickler:innen die Möglichkeit, Anwendungen zu entwickeln, die schnell und präzise auf eine Vielzahl von Befehlen reagieren.

Endgültig im Alltag angekommen ist die Spracherkennung durch die Branchenriesen Apple und Google: 2011 führte Apple zusammen mit dem iPhone 4S »Siri« ein. Mithilfe des intelligenten Assistenten konnte der Nutzer per Sprachbefehl Freunde anrufen oder Musik abspielen. Im Jahr 2012 nutzte Google mit der App »Google Voice Search« erstmals die inhärente Konnektivität des Telefons, um Suchbegriffe mit den Daten von Benutzersuchen zu vergleichen, die das Unternehmen in der Cloud gesammelt hatte. Die Mölichkeit, Daten mit früheren Suchen zu vergleichen, steigerte besonders die Genauigkeit, da die KI den Kontext der Suche nun besser erfassen konnte. In beiden Fällen – bei Siri und Google Search – dient die Sprache als ein zweites Steuerungstool neben dem Touchscreen. Auf die nächste Ebene gehoben hat Amazon das Konzept der Sprachsteuerung dann mit dem »Amazon Echo«. Hier wurde ein digitaler Assistent mit einem Lautsprecher kombiniert und der Touchscreen ganz weggelassen.

Dank des Erfolgs intelligenter Sprachassistenten ziehen immer mehr Maker die Spracherkennung und -steuerung als mög­liche Option für ihr nächstes Design in Betracht. So sollen laut ABI Research bis 2021 jährlich zwölf Millionen sprachfähige
Geräte ausgeliefert und die Sprachsteuerung zu einer wich­tigen Schnittstelle für das intelligente Zuhause von morgen werden.

Sprachsteuerung individuell integrieren

Wer eine Sprachsteuerung in sein Produkt integrieren möchten, muss einiges beachten. So besteht einerseits die Möglichkeit, das gesamte System von Grund auf zu entwickeln und offline zu betreiben. Eine Entscheidung, die aber auch die Funktionen einschränkt, denn die Spracherkennungsalgorithmen und -bibliotheken sind in diesem Fall durch den Speicher begrenzt. Auch das Einfügen neuer Befehle könnte sich schwierig gestalten.

Soll ein umfassenderer Befehlssatz zur Verfügung stehen, ist eine Cloud-Anbindung erforderlich. Die meisten großen Cloud-Anbieter, einschließlich Amazon und Google, bieten Sprachdienste als Dienstleistung an, die vergleichsweise kostengünstig in Designs integrierbar sind. Wie bei jeder Designentscheidung hängt die Wahl des Services vorrangigen von den jeweiligen Prioritäten ab. So bietet IBM einen Sprachdienst als Teil der Watson-Cloud-Plattform an. Die Plattform ist zwar flexibel,
aber hauptsächlich für diejenigen interessant, die auch von der analytischen Expertise von IBM profitieren möchten. Wer eine allgemeinere, etwa auf private Konsumenten ausgerichtete Plattform aufbauen möchte, ist wahrscheinlich mit einer alter­nativen Lösung besser beraten.

Plattformen, die auf den allgemeinen Heimautomationsmarkt zugeschnitten sind, bieten sowohl Amazon als auch Google. Um die Integration der Sprachsteuerung von Amazon und Google in neue Produkte zu fördern, bieten beide Unternehmen den Zugang zu ihren Plattformen kostengünstig an. Mit dem »Alexa Voice Service« (AVS) von Amazon lässt sich Alexa direkt in ein Produkt integrieren. AVS stellt dazu umfangreiche Ressourcen bereit, darunter Programmierschnittstelle (API, Application Programming Interface), Hardware- und Software-Entwicklungskits (SDK, Software Development Kit) sowie die entsprechenden Dokumentationen.

Google macht es außerdem möglich, die Funktionen des intel­ligenten persönlichen Assistenten »Google Assistant« zu nutzen. Das Google Assistant-SDK bietet zwei Optionen für die Inte­gration des Assistenten – die Google Assistant-Bibliothek und die Google Assistant-gRPC-API: Die Google Assistant-Bibliothek ist in Python geschrieben und wird auf Geräten mit den Architekturen Linux-ARM v7l und Linux-x86_64 (zum Beispiel Raspberry Pi 3 B und Ubuntu-Desktops) unterstützt. Die Bibliothek bietet eine ereignisbasierte High-Level-API, die erweitert werden kann. Die gRPC-API von Google Assistant erlaubt den Zugriff auf eine Low-Level-API. Bindings für diese API können in Node.js, Go, C++ und Java für alle Plattformen generiert werden, die gRPC unterstützen.

Es geht auch ohne Google und Amazon

Wer diese Dienste nicht nutzen oder eine Open-Source-Schnittstelle verwenden möchte, kann auf Alternativen zurückgreifen. Mycroft beispielsweise ist ein kostenloser, intelligenter Open-Source-Personal-Assistant für Linux-basierte Betriebssysteme, der eine Benutzeroberfläche mit natürlicher Sprache nutzt.
Darüber hinaus ist die Anwendung modular aufgebaut. Das heißt, ihre Komponenten lassen sich nach Bedarf anpassen. Eine weitere Open-Source-Option ist Jasper. Auch die Software dieser Plattform lässt sich problemlos um neue Funktionen
ergänzen.

Als Hardware kommt meist ein Einplatinencomputer, etwa ein Raspberry Pi, zum Einsatz. Es gibt einige Platinen, die speziell für Sprachsteuerungsanwendungen entwickelt wurden, wie das Creator-Board von Matrix, das als Raspberry-Pi-Hat oder als eigenständige Einheit verwendet werden kann. Die Platine verfügt über ein Array von sieben MEMS-Mikrofonen, die ein Hörfeld von 360° abdecken, und wird mit einem ARM-Cortex-M3 mit 64 Mbit SDRAM betrieben. Ebenfalls integriert sind Sensoren, um bei Bedarf weitere Funktionen hinzuzufügen. Zu den Standarddiensten, die mit dem Board verwendet werden können, gehören Amazon AVS, Google Speech API und Houndify.

Für Spracherkennungsdesigns sind besonders die Mikrofone wichtig. Häufig werden mehrere Mikrofone verwendet und in einem Array angeordnet, um Töne präziser zu erfassen. Wenn die Technik zum Zusammenfügen der durch die verschiedenen Mikrofone erfassten Töne nicht bereits in das Array integriert ist, ist oft zusätzliche Entwicklungsarbeit und Verarbeitungsleistung erforderlich. Wichtig ist auch die Geräuschreduzierung, um zu gewährleisten, dass Anweisungen präzise verstanden werden.

Schnittstelle zwischen Mensch und Maschine

In den meisten Fällen geht es vor allem darum, möglichst in­tuitive Schnittstellen zwischen Mensch und Maschine zu entwickeln. Zwar gibt es bis heute keine Methode, die mit der instinktiven Art und Weise der menschlichen Kommunikation vergleichbar ist, aber die Sprachsteuerung hat einen Punkt erreicht, an dem sie sich fast so anfühlt wie das Gespräch mit einem anderen Menschen.

Obwohl die Technik von einigen der größten Namen der Branche entwickelt wurde, steht sie jedem für eigene Designprojekte zur Verfügung. Da ein Großteil der Verarbeitung in der Cloud erfolgt, ist die erforderliche Hardware nicht so anspruchsvoll, wie man vielleicht denkt. Zudem stehen spezialisierte Platinen, Tools und Services zur Verfügung, die den Prozess deutlich vereinfachen. Sprachsteuerung kann heute fast jedem Projekt hinzugefügt werden.

Der Autor

Cliff-Ortmeyer von Farnell
© Farnel

Cliff-Ortmeyer von Farnell

Cliff Ortmeyer

ist Global Head of Solutions Development bei Farnell. Er hat einen Abschluss in Elektrotechnik und ist seit 26 Jahren in der Elektronikbranche in verschiedenen Positionen im Engineering und Marketing Management tätig. Seit sechs Jahren arbeitet Ortmeyer bei Farnell, zuletzt als globaler Leiter des Bereichs Technologieprodukt-marketing und Lösungsentwicklung. Zuvor war er bei STMicroelectronics und Coilcraft bschäftigt. Ortmeyer ist ein Elektronik-Enthusiast und hält mehrere Patente.

Auf Facebook teilenAuf Twitter teilenAuf Linkedin teilenVia Mail teilen

Das könnte Sie auch interessieren

Sprachtechnologien unterstützen Interpol
Bluetooth-Gesichtsmaske übersetzt in 8 Sprachen
Virtueller Robotik-Hackathon – Frauenpower ist gefragt

Verwandte Artikel

Farnell GmbH