Embedded-/Edge-Hardware ist inzwischen so leistungsfähig, dass generative KI ins Edge Computing vorstoßen kann – und folglich auch in humanoide Roboter. Tria Technologies hat nun Systeme entwickelt, die generative Sprach-zu-Sprach-KI auf Hardwareplattformen wie eben die Humanoiden portieren können.
Die Revolution der generativen KI, die Chatbots in den Kundenservice bringt und Geräte wie etwa intelligente Lautsprecher ermöglicht, ist erst der Anfang. Dieselbe Technologie, die menschliche Sprache versteht, hält nun Einzug in die Robotik und hilft dabei, Algorithmen zu entwickeln, die dort Bewegungen besser steuern und Richtlinien für die Ausführung wichtiger Aufgaben festlegen.
Roboter halten zunehmend Einzug in Bereiche, in denen sie nicht nur mit Bedienern, sondern auch mit der Öffentlichkeit interagieren. Generative KI kann durch Sprachsteuerung und Feedback die Benutzerfreundlichkeit erheblich verbessern. Ein mobiler Concierge-Roboter in einem Hotel oder Krankenhaus kann Menschen an ihren Zielort führen oder Mahlzeiten ausliefern. Bei integrierter Sprachsteuerung können Kunden Fragen stellen und präzise Antworten erhalten. In öffentlichen Verkehrsmitteln können Hilfsroboter Sehbehinderte an ihr Ziel führen.
In industriellen Anwendungen wie Schweißen und Schrauben kann der Roboter gesprochene Befehle befolgen und signalisieren, dass er sie richtig verstanden hat. Diese Befehle können den Roboter anweisen, beispielsweise eine schwere Platte an ihren Platz zu bewegen, die Schweißnaht und Befestigung anzubringen und die Platte dann in die nächste Position zu manövrieren. In der Medizin kann ein Roboter einem Arzt das benötigte Instrument reichen, ohne dass dieser sterile Verfahren unterbrechen muss, um einen Bildschirm oder eine Tastatur zu berühren.
Viele der heutigen Sprach-zu-Sprach-Systeme für Endverbraucher nutzen die Cloud, um ihre Dienste bereitzustellen. Robotik kann die damit verbundene Latenz jedoch nicht tolerieren. Zudem sind industrielle und landwirtschaftliche Betriebe oft weit von einer Breitbandverbindung entfernt. Solche Situationen erfordern die Integration leistungsfähiger KI-Modelle, die sich in Embedded-Systemen vor Ort ausführen lassen.
Bisher war die lokale Ausführung von KI-Modellen mit hohen Kosten und hohem Stromverbrauch verbunden. Dies ist heutzutage nicht mehr der Fall. Auf Basis des Anwendungsprozessors i.MX 95 von NXP hat Tria nun Systeme entwickelt, die zeigen, wie sich generative Sprach-zu-Sprach-KI auf eine stromsparende Hardwareplattform portieren lässt, ohne die hohen Energie- und Finanzkosten einer dedizierten GPU in Kauf nehmen zu müssen. Der i.MX 95 kombiniert einen Arm-Multicore-Prozessor mit einer integrierten Grafikverarbeitung (GPU) und KI-Beschleunigung auf Basis des NXP eIQ Neutron, integriert mit Hochleistungs-I/Os und Speicher-Controllern.
Bei der KI-Integration in eine Embedded-Anwendung sollte man Modelle wählen, die hinsichtlich Leistungsfähigkeit, Speichernutzung und Genauigkeit die besten Kompromisse bieten. Im Prinzip lässt sich ein generatives KI-Modell durchgängig verwenden – in vielen Fällen ist dies jedoch nicht erforderlich. Die Entwickler von Tria haben mit verschiedenen Optionen für die unterschiedlichen Teile der Sprach-zu-Sprach-Pipeline experimentiert.
Diese Pipeline beginnt mit der Erkennung menschlicher Befehle. Die Aufgabe sollte einem Algorithmus oder Modell zugewiesen werden, das auf einen geringen Stromverbrauch ausgelegt ist, weil es häufig ausgeführt werden muss, damit der Roboter keine wichtigen Befehle verpasst. Der einfachste Algorithmus hierfür ist die Audio-Power-Erkennung, bei der das Signal vom Mikrofon mit dem Hintergrundgeräuschpegel verglichen wird. Obwohl diese Methode einen sehr geringen Overhead aufweist, bringt sie eine inakzeptable Falsch-Positiv-Rate mit sich. Das Silero-Modell zur Erkennung von Sprachaktivität, das auf einer CNN-Architektur (Convolutional Neural Network) beruht, bietet jedoch hohe Qualität bei geringem Overhead.
Ähnlich stellte das Entwickler-Team von Tria fest, dass das Piper-Text-zu-Sprache-Modell auch bei der Ausgabe eine hervorragende Leistungsfähigkeit im Verhältnis zu seiner Größe sowie Prozessor- und Speichernutzung erreicht. Zwischen diesen beiden Phasen bietet generative KI die größten Vorteile. Die Technologie, die vielen der heutzutage weit verbreiteten generativen KI-Tools zugrunde liegt, wurde für die Verarbeitung natürlicher Sprache entwickelt. Das Large Language Model (LLM) nutzt die statistische Natur der menschlichen Sprach- und Schreibmuster. Wörter und Phrasen werden in Tokens zerlegt, die in einen mehrdimensionalen Vektorraum so abgebildet werden, dass jene mit ähnlicher Bedeutung nahe beieinander liegen. Dies ist einer der Gründe, warum diese Modelle bei der Übersetzung von einer Sprache in eine andere so effektiv sind.
Ein LLM kombiniert die Vektoreinbettung mit einem neuronalen Netzwerk auf Basis von Transformer-Strukturen. Dabei wird das Konzept der Aufmerksamkeit genutzt, um offensichtliche Verbindungen zwischen Tokens zu finden, die der KI helfen, kohärente Ergebnisse zu generieren. Ein großer Vorteil des Trainingsprozesses besteht darin, dass die rechen- und datenintensivste Phase (das Pretraining) kein Daten-Labeling benötigt. Der Trainingsprozess lässt das Modell selbst offensichtliche Verbindungen zwischen Wörtern herausarbeiten. Eine zweite Phase, das Feintuning, ist ebenso wichtig. Dabei werden gelabelte Daten verwendet, um das vortrainierte Modell für eine bestimmte Aufgabe zu optimieren. Bei einem Modell wie Whisper von OpenAI ist diese Aufgabe die Umwandlung natürlicher Sprache in Text.
Das Open-Source-Modell von Whisper wurde mit mehr als einer halben Million Stunden mehrsprachiger Sprachaufzeichnungen und einem Korpus trainiert, der viele verschiedene Arten von Aufgaben abdeckt. Es ist robust gegenüber Störgeräuschen und Akzenten und kann mit vielen Fällen von Fachsprache umgehen. Seine geringe Größe, gepaart mit zusätzlichen Leistungs- und Speicheroptimierungen, ermöglicht die Ausführung von Whisper in Embedded-Systemen.
Für die Sprach-zu-Sprach-Anwendung nutzte das Entwickler-Team von Tria quantisierte Verarbeitung, um den Verarbeitungsaufwand des Modells zu reduzieren. Entwickler trainieren und implementieren Cloud-KI-Modelle meist mit Fließkommaarithmetik. Prozessoren wie der i.MX 95 unterstützen jedoch parallelisierte Arithmetik-Pipelines, die mit kurzen Ganzzahlen arbeiten.
Durch die Umwandlung von Gleitkomma-Parametern in 8-Bit-Ganzzahlen lassen sich erhebliche Geschwindigkeitssteigerungen und Einsparungen beim Gesamtspeicherverbrauch und bei der Bandbreite erzielen, was auch den Energieverbrauch senkt. Durch die Quantisierung auf int8 ließ sich die Verarbeitungszeit von 10 auf 1,2 s reduzieren. Um den in Roboteranwendungen erwarteten kurzen Befehlen gerecht zu werden, reduzierte das Team auch die Länge des Audiokontexts von 30 s auf weniger als 2 s.
Die Bedeutung des von Whisper erzeugten Textes zu bestimmen, ist eine komplexere Aufgabe und erfordert ein größeres, auf die Anwendung abgestimmtes Modell. LLMs, die Text so gut verstehen, dass sie ihn in Befehle für einen Roboter umwandeln können, benötigen oft 1 Mrd. oder mehr Parameter für neuronale Netze. Ihre Größe lässt sich jedoch durch sorgfältige Feinabstimmung reduzieren. Für dieses Sprach-zu-Sprach-Projekt evaluierte Tria die Open-Source-Modelle Qwen und Llama3, beginnend mit ihren Versionen mit 1 Mrd. Parametern. Ein wichtiger Kompromiss ist die Anzahl der Tokens, die ein solches Modell pro Sekunde generieren kann. So arbeitet die Version von Qwen mit 500 Mio. Parametern auf einer Plattform wie i.MX mehr als doppelt so schnell wie die Version mit 1 Mrd. Parametern.
Ein Modell mit 500 Mio. Parametern kann mit einer gezielten Feinabstimmung eine angemessene Funktionalität bieten. Dieser Prozess kann das Modell für die Arten von Befehls- und Antwortpaaren optimieren, die ein mobiler Roboter voraussichtlich verarbeiten muss. Entwickler können ein serverbasiertes LLM verwenden, um einen Großteil der gelabelten Daten synthetisch zu generieren. Dies spart im Vergleich zur manuellen Generierung und Beschriftung erheblich Zeit.
Um die Integration in dem Yocto-basierten Zielsystem zu vereinfachen, entschied sich das Entwickler-Team von Tria für eine Architektur, die auf einer Zustandsmaschine mit einem MQTT-Broker beruht. Diese dient zur Übertragung von Nachrichten zwischen den verschiedenen Modellen und anderen Komponenten des Systems, etwa dem Kameraeingang und einem mithilfe der On-Chip-GPU implementierten 3D-Avatar. Um einen zuverlässigen Betrieb zu gewährleisten, prüft ein im Prozessor laufender Watchdog-Thread, ob die Aufnahme/Spracheingabe innerhalb einer festgelegten Zeit abgeschlossen ist, und generiert andernfalls die Frage »Können Sie das wiederholen?«.
Generative KI für die Sprachsynthese ist erst der Anfang. In Forschungsprojekten werden derzeit fortschrittlichere multimodale Sprachmodelle eingesetzt, um Roboter zu trainieren, die sich besser bewegen und Objekte manipulieren können. F&E-Teams nutzen derzeit Reinforcement-Learning in Verbindung mit multimodalen Modellen, um die Einschränkungen herkömmlicher modellprädiktiver Regelalgorithmen zu überwinden. Weitere Modelle, die auf logischem Denken beruhen, ermöglichen Robotern, ohne Karten zu navigieren, autonome Entscheidungen zu treffen und aus bestehenden, untergeordneten Richtlinien schlüssige Strategien zur Aufgabenerledigung zu entwickeln. Eine weitere Optimierung dieser Modelle ermöglicht deren Ausführung auf zukünftigen stromsparenden Plattformen. Roboterentwickler haben inzwischen Zugriff auf Methoden, die es ermöglichen, Robotern durch Sprachbefehle Anweisungen zu geben und aufzuzeigen, dass die Roboter die Aufgabe verstanden haben.