Startseite > Embedded > Software > Sprachsteuerung für Roboter dank generativer KI

Generative KI dringt in die Robotik vor

Sprachsteuerung für Roboter dank generativer KI

24. Juni 2025, 9:00 Uhr | Jim Beneke / ak

Humanoide Roboter lassen sich auch in der Landwirtschaft nutzen.

Embedded-/Edge-Hardware ist inzwischen so leistungsfähig, dass generative KI ins Edge Computing vorstoßen kann – und folglich auch in humanoide Roboter. Tria Technologies hat nun Systeme entwickelt, die generative Sprach-zu-Sprach-KI auf Hardwareplattformen wie eben die Humanoiden portieren können.

▶ Diesen Artikel anhören

Die Revolution der generativen KI, die Chatbots in den Kundenservice bringt und Geräte wie etwa intelligente Lautsprecher ermöglicht, ist erst der Anfang. Dieselbe Technologie, die menschliche Sprache versteht, hält nun Einzug in die Robotik und hilft dabei, Algorithmen zu entwickeln, die dort Bewegungen besser steuern und Richtlinien für die Ausführung wichtiger Aufgaben festlegen.

Roboter halten zunehmend Einzug in Bereiche, in denen sie nicht nur mit Bedienern, sondern auch mit der Öffentlichkeit interagieren. Generative KI kann durch Sprachsteuerung und Feedback die Benutzerfreundlichkeit erheblich verbessern. Ein mobiler Concierge-Roboter in einem Hotel oder Krankenhaus kann Menschen an ihren Zielort führen oder Mahlzeiten ausliefern. Bei integrierter Sprachsteuerung können Kunden Fragen stellen und präzise Antworten erhalten. In öffentlichen Verkehrsmitteln können Hilfsroboter Sehbehinderte an ihr Ziel führen.

In industriellen Anwendungen wie Schweißen und Schrauben kann der Roboter gesprochene Befehle befolgen und signalisieren, dass er sie richtig verstanden hat. Diese Befehle können den Roboter anweisen, beispielsweise eine schwere Platte an ihren Platz zu bewegen, die Schweißnaht und Befestigung anzubringen und die Platte dann in die nächste Position zu manövrieren. In der Medizin kann ein Roboter einem Arzt das benötigte Instrument reichen, ohne dass dieser sterile Verfahren unterbrechen muss, um einen Bildschirm oder eine Tastatur zu berühren.

Sprach-zu-Sprach-Systeme

Viele der heutigen Sprach-zu-Sprach-Systeme für Endverbraucher nutzen die Cloud, um ihre Dienste bereitzustellen. Robotik kann die damit verbundene Latenz jedoch nicht tolerieren. Zudem sind industrielle und landwirtschaftliche Betriebe oft weit von einer Breitbandverbindung entfernt. Solche Situationen erfordern die Integration leistungsfähiger KI-Modelle, die sich in Embedded-Systemen vor Ort ausführen lassen.

Bisher war die lokale Ausführung von KI-Modellen mit hohen Kosten und hohem Stromverbrauch verbunden. Dies ist heutzutage nicht mehr der Fall. Auf Basis des Anwendungsprozessors i.MX 95 von NXP hat Tria nun Systeme entwickelt, die zeigen, wie sich generative Sprach-zu-Sprach-KI auf eine stromsparende Hardwareplattform portieren lässt, ohne die hohen Energie- und Finanzkosten einer dedizierten GPU in Kauf nehmen zu müssen. Der i.MX 95 kombiniert einen Arm-Multicore-Prozessor mit einer integrierten Grafikverarbeitung (GPU) und KI-Beschleunigung auf Basis des NXP eIQ Neutron, integriert mit Hochleistungs-I/Os und Speicher-Controllern.

Bei der KI-Integration in eine Embedded-Anwendung sollte man Modelle wählen, die hinsichtlich Leistungsfähigkeit, Speichernutzung und Genauigkeit die besten Kompromisse bieten. Im Prinzip lässt sich ein generatives KI-Modell durchgängig verwenden – in vielen Fällen ist dies jedoch nicht erforderlich. Die Entwickler von Tria haben mit verschiedenen Optionen für die unterschiedlichen Teile der Sprach-zu-Sprach-Pipeline experimentiert.

Diese Pipeline beginnt mit der Erkennung menschlicher Befehle. Die Aufgabe sollte einem Algorithmus oder Modell zugewiesen werden, das auf einen geringen Stromverbrauch ausgelegt ist, weil es häufig ausgeführt werden muss, damit der Roboter keine wichtigen Befehle verpasst. Der einfachste Algorithmus hierfür ist die Audio-Power-Erkennung, bei der das Signal vom Mikrofon mit dem Hintergrundgeräuschpegel verglichen wird. Obwohl diese Methode einen sehr geringen Overhead aufweist, bringt sie eine inakzeptable Falsch-Positiv-Rate mit sich. Das Silero-Modell zur Erkennung von Sprachaktivität, das auf einer CNN-Architektur (Convolutional Neural Network) beruht, bietet jedoch hohe Qualität bei geringem Overhead.

Jobangebote+ passend zum Thema

MACNICA ATD EUROPE - Ihre berufliche Zukunft

MACNICA ATD Europe GmbH, Ingolstadt

Sales Manager / Vertriebsmitarbeiter (m/w/d)

Verifysoft Technology GmbH, Offenburg

Alle Jobangebote im Elektroniknet Karrierebereich anzeigen

Sprache-zu-Text

Ähnlich stellte das Entwickler-Team von Tria fest, dass das Piper-Text-zu-Sprache-Modell auch bei der Ausgabe eine hervorragende Leistungsfähigkeit im Verhältnis zu seiner Größe sowie Prozessor- und Speichernutzung erreicht. Zwischen diesen beiden Phasen bietet generative KI die größten Vorteile. Die Technologie, die vielen der heutzutage weit verbreiteten generativen KI-Tools zugrunde liegt, wurde für die Verarbeitung natürlicher Sprache entwickelt. Das Large Language Model (LLM) nutzt die statistische Natur der menschlichen Sprach- und Schreibmuster. Wörter und Phrasen werden in Tokens zerlegt, die in einen mehrdimensionalen Vektorraum so abgebildet werden, dass jene mit ähnlicher Bedeutung nahe beieinander liegen. Dies ist einer der Gründe, warum diese Modelle bei der Übersetzung von einer Sprache in eine andere so effektiv sind.

Ein LLM kombiniert die Vektoreinbettung mit einem neuronalen Netzwerk auf Basis von Transformer-Strukturen. Dabei wird das Konzept der Aufmerksamkeit genutzt, um offensichtliche Verbindungen zwischen Tokens zu finden, die der KI helfen, kohärente Ergebnisse zu generieren. Ein großer Vorteil des Trainingsprozesses besteht darin, dass die rechen- und datenintensivste Phase (das Pretraining) kein Daten-Labeling benötigt. Der Trainingsprozess lässt das Modell selbst offensichtliche Verbindungen zwischen Wörtern herausarbeiten. Eine zweite Phase, das Feintuning, ist ebenso wichtig. Dabei werden gelabelte Daten verwendet, um das vortrainierte Modell für eine bestimmte Aufgabe zu optimieren. Bei einem Modell wie Whisper von OpenAI ist diese Aufgabe die Umwandlung natürlicher Sprache in Text.

Das Open-Source-Modell von Whisper wurde mit mehr als einer halben Million Stunden mehrsprachiger Sprachaufzeichnungen und einem Korpus trainiert, der viele verschiedene Arten von Aufgaben abdeckt. Es ist robust gegenüber Störgeräuschen und Akzenten und kann mit vielen Fällen von Fachsprache umgehen. Seine geringe Größe, gepaart mit zusätzlichen Leistungs- und Speicheroptimierungen, ermöglicht die Ausführung von Whisper in Embedded-Systemen.

Für die Sprach-zu-Sprach-Anwendung nutzte das Entwickler-Team von Tria quantisierte Verarbeitung, um den Verarbeitungsaufwand des Modells zu reduzieren. Entwickler trainieren und implementieren Cloud-KI-Modelle meist mit Fließkommaarithmetik. Prozessoren wie der i.MX 95 unterstützen jedoch parallelisierte Arithmetik-Pipelines, die mit kurzen Ganzzahlen arbeiten.

Durch die Umwandlung von Gleitkomma-Parametern in 8-Bit-Ganzzahlen lassen sich erhebliche Geschwindigkeitssteigerungen und Einsparungen beim Gesamtspeicherverbrauch und bei der Bandbreite erzielen, was auch den Energieverbrauch senkt. Durch die Quantisierung auf int8 ließ sich die Verarbeitungszeit von 10 auf 1,2 s reduzieren. Um den in Roboteranwendungen erwarteten kurzen Befehlen gerecht zu werden, reduzierte das Team auch die Länge des Audiokontexts von 30 s auf weniger als 2 s.

Die Bedeutung des von Whisper erzeugten Textes zu bestimmen, ist eine komplexere Aufgabe und erfordert ein größeres, auf die Anwendung abgestimmtes Modell. LLMs, die Text so gut verstehen, dass sie ihn in Befehle für einen Roboter umwandeln können, benötigen oft 1 Mrd. oder mehr Parameter für neuronale Netze. Ihre Größe lässt sich jedoch durch sorgfältige Feinabstimmung reduzieren. Für dieses Sprach-zu-Sprach-Projekt evaluierte Tria die Open-Source-Modelle Qwen und Llama3, beginnend mit ihren Versionen mit 1 Mrd. Parametern. Ein wichtiger Kompromiss ist die Anzahl der Tokens, die ein solches Modell pro Sekunde generieren kann. So arbeitet die Version von Qwen mit 500 Mio. Parametern auf einer Plattform wie i.MX mehr als doppelt so schnell wie die Version mit 1 Mrd. Parametern.

Ein Modell mit 500 Mio. Parametern kann mit einer gezielten Feinabstimmung eine angemessene Funktionalität bieten. Dieser Prozess kann das Modell für die Arten von Befehls- und Antwortpaaren optimieren, die ein mobiler Roboter voraussichtlich verarbeiten muss. Entwickler können ein serverbasiertes LLM verwenden, um einen Großteil der gelabelten Daten synthetisch zu generieren. Dies spart im Vergleich zur manuellen Generierung und Beschriftung erheblich Zeit.

Um die Integration in dem Yocto-basierten Zielsystem zu vereinfachen, entschied sich das Entwickler-Team von Tria für eine Architektur, die auf einer Zustandsmaschine mit einem MQTT-Broker beruht. Diese dient zur Übertragung von Nachrichten zwischen den verschiedenen Modellen und anderen Komponenten des Systems, etwa dem Kameraeingang und einem mithilfe der On-Chip-GPU implementierten 3D-Avatar. Um einen zuverlässigen Betrieb zu gewährleisten, prüft ein im Prozessor laufender Watchdog-Thread, ob die Aufnahme/Spracheingabe innerhalb einer festgelegten Zeit abgeschlossen ist, und generiert andernfalls die Frage »Können Sie das wiederholen?«.

Die nächste Welle generativer KI

Generative KI für die Sprachsynthese ist erst der Anfang. In Forschungsprojekten werden derzeit fortschrittlichere multimodale Sprachmodelle eingesetzt, um Roboter zu trainieren, die sich besser bewegen und Objekte manipulieren können. F&E-Teams nutzen derzeit Reinforcement-Learning in Verbindung mit multimodalen Modellen, um die Einschränkungen herkömmlicher modellprädiktiver Regelalgorithmen zu überwinden. Weitere Modelle, die auf logischem Denken beruhen, ermöglichen Robotern, ohne Karten zu navigieren, autonome Entscheidungen zu treffen und aus bestehenden, untergeordneten Richtlinien schlüssige Strategien zur Aufgabenerledigung zu entwickeln. Eine weitere Optimierung dieser Modelle ermöglicht deren Ausführung auf zukünftigen stromsparenden Plattformen. Roboterentwickler haben inzwischen Zugriff auf Methoden, die es ermöglichen, Robotern durch Sprachbefehle Anweisungen zu geben und aufzuzeigen, dass die Roboter die Aufgabe verstanden haben.

Der Autor:

Jim Beneke, Vice President North America, Tria Technologies

Umfrage zur Marktentwicklung

Distribution spürt neuen Rückenwind

From Tria Technologies for HMIs

First SMARC module based on the Renesas RZ/G3E processor

Von Tria Technologies für HMIs

Erstes SMARC-Modul auf Basis des Renesas-Prozessors RZ/G3E

Alle Beiträge zum Durchklicken

Generative KI dringt in die Robotik vor

Sprachsteuerung für Roboter dank generativer KI

Sprach-zu-Sprach-Systeme

Jobangebote+ passend zum Thema

Sprache-zu-Text

Die nächste Welle generativer KI

Der Autor:

Jim Beneke, Vice President North America, Tria Technologies

Lesen Sie mehr zum Thema

Weitere Artikel zu Avnet Embedded (Avnet EMG GmbH)

Umfrage zur Marktentwicklung

Distribution spürt neuen Rückenwind

From Tria Technologies for HMIs

First SMARC module based on the Renesas RZ/G3E processor

Von Tria Technologies für HMIs

Erstes SMARC-Modul auf Basis des Renesas-Prozessors RZ/G3E

Alle Beiträge zum Durchklicken

Online-Themenwoche: Embedded-Systeme – der Überblick

Zukunft des Embedded Computing gestalten

Was treibt die Innovationen im Embedded-Markt an?

Weitere Artikel zu Künstliche Intelligenz (KI)

Kioxia

KI-basierte Bilderkennung für die Logistik

Landau/Pfalz startet Erprobungsphase

Mobilitätsmanagement auf KI-Basis

Compamed & Medica 2025

Medizintechnik-Hotspot Düsseldorf trotzt schwierigem Weltmarkt

Den Datenhunger der KI zähmen

Mit Hafniumdoxid zu neuromorphem Computing

HOSE&SPÖRRLE: Mensch. Maschine. Morgen.

Folge 19: Managing The Unexpected – mit Holger Ruban

Weitere Artikel zu Robotik

Highlights von der MEDICA 2025

Einbaufertig und zertifiziert: Präzisionsantriebe für OP-Roboter

Funktechnik im industriellen Umfeld

Funkkommunikation in Transportrobotern messtechnisch absichern

Kuka Innovation Award 2025

Im Paar präzise: Ultraschall-Roboter für Wirbelsäulen-OPs gewinnt

In Deutschland entwickelt und produziert

Humanoider Roboter für die Industrie

Steuerbare Gelkapsel bei Schlaganfall

Mikroroboter transportiert Medikamente durch Blut und Gehirn

Weitere Artikel zu SBCs / CPU-Boards / CoM / SoM

Qualcomm-based Computer-on-Modules

COM-HPC Mini Modules from Congatec with new Qualcomm Processors

Durch die Zusammenarbeit mit Kontron

Congatec-CoMs jetzt auch mit KontronOS erhältlich

Computer-on-Modules auf Qualcomm-Basis

COM-HPC-Mini-Module von Congatec mit neuen Qualcomm-Prozessoren

Edge-KI-Anwendungen im Blick

Congatec und Qualcomm kooperieren

Wegen CRA, Security- und Funkrichtlinien

»Embedded Designs erfordern neue Herangehensweisen«

Weitere Artikel zu Industrie-Computer / Embedded PC

Ökosystem für die Automation

Bosch Rexroth und Advantech liefern Edge-IPCs mit ctrlX OS aus

Edge Computing für die Medizintechnik

Advantech: Kompakte KI-Rechner für medizinische Bildgebung

embedded world North America

Schaulaufen der Embedded-Branche in Anaheim

Kontron

High-End-Industrie-PC für KI und Machine Vision

Neousys / Bressner

Embedded-PCs für Machine Vision und Edge-KI