Software-Entwicklung Spracherkennung für den i.MX6

Mit dem Sprachsteuerungskit von Phytec und Voice Inter Connect kann das i.XM6-System Sprachbefehle erkennen.
Mit dem Sprachsteuerungskit von Phytec und Voice Inter Connect kann das i.XM6-System Sprachbefehle erkennen.

Phytec stellt ein Sprachentwicklungs-Kit mit i.MX6-Prozessor vor, das an kundenspezifische Aufgaben angepasst werden kann.

Voice Inter Connect und Phytec haben gemeinsam eine Sprachbedienung für Embedded-Systeme entwickelt. Dafür wurde die »vicCONTROL industrial« Sprachsteuerung von Voice Inter Connect auf dem phyBOARD-Mira integriert. Die industrietaugliche Lösung benötigt nach der Implementierung keine Internetverbindung und eignet sich auch für datenschutzsensible Projekte. Konventionelle Bedienmethoden können damit um eine Sprachbedienung erweitert werden.

Freihändige Eingabesysteme und intuitive Bedienungen können damit ebenso realisiert werden wie vandalismusgeschützte User-Interfaces. Die Erstellung der kundenspezifischen Anwendung für die Sprachsteuerung erfolgt auf dem PC mit der Entwicklungsumgebung »vicDM-Designer«. Die erstellten Sprachdialoge und Bedienabläufe werden auf das Embedded-System geladen und von vicCONTROL industrial lokal verarbeitet. In seiner Leistungsfähigkeit steht vicCONTROL industrial cloudbasierten Spracherkennern wie Amazon Alexa oder Google Home in keiner Weise nach und ist in 30 Landessprachen verfügbar.

Sprachsteuerungs-Kits mit i.MX6

Auf den Sprachsteuerungs-Kits mit i.MX6-Prozessor ist vicCONTROL industrial bereits einsatzbereit installiert. Die Kits ermöglichen den direkten Einstieg in die Applikationsentwicklung und zeigen anhand der Demos die Leistungsfähigkeit des Systems. Das SDK ist auf ARMv7-kompatible Plattformen abgestimmt. Auf dem phyBOARD-Mira arbeitet ein Cortex-A9 mit 1 GHz und 1 GB DDR3-RAM sowie 1 GB NAND-Flash und 16 MB NOR-Flash. Für die Sprachaufnahme ist das Boad mit einem Voice Recognition Adapter mit zwei MEM-Mikrofonen ausgerüstet, die über I²S angeschlossen sind. Ein Mini-Lautsprecher und ein Stereo-Audio-Ausgang sind ebenfalls vorhanden.

Die Sprachsoftware verfügt über ein API zur Nutzung von Sprach-Ein- und Ausgaben über MQTT. Mittels Schlüsselworten kann das System aktiviert werden. Code-Beispiele zeigen, wie eine kundenspezifische Sprachsteuerung realisiert wird. Die Runtime erfordert etwa 10 MB Hauptspeicher sowie 6 MB je Sprache und z.B. 500 KB für einen Erkennungsvorrat von 1000 Wörtern.