Roboterhand trainieren

Mit Reinforcement Learning zum Erfolg

12. Dezember 2022, 10:30 Uhr | Tobias Schlichtmeier
Mithilfe von Isaac Gym, einem RL-Trainingsrobotersimulator, brachten Forscher im Rahmen des DeXtreme-Projekts der Roboterhand bei, einen Würfel so zu manipulieren, dass er einer vorgegebenen Zielposition und -ausrichtung bzw. -haltung entspricht.
© Nvidia

Die menschliche Hand ist eines der bemerkenswertesten Ergebnisse von Millionen von Jahren der Evolution. Die Fähigkeit, alle möglichen Gegenstände zu greifen und sie als Werkzeuge zu benutzen, ist ein entscheidendes Unterscheidungsmerkmal – das auf Roboter zu transferieren ist nicht einfach.

Diesen Artikel anhören

Damit Roboter in der alltäglichen menschlichen Welt arbeiten können, müssen sie mit unseren Werkzeugen und der sie umgebenden Umwelt interagieren. Ohne diese Fähigkeit werden sie lediglich in spezialisierten Bereichen wie Fabriken oder Lagerhäusern nützlich sein.

Während es schon seit einiger Zeit möglich ist, Robotern mit Beinen das Gehen beizubringen, haben sich Roboter mit Händen im Allgemeinen als viel schwieriger zu steuern erwiesen. Eine Hand mit Fingern hat mehr Gelenke, die sich auf bestimmte koordinierte Weise bewegen müssen, um eine bestimmte Aufgabe zu erfüllen. Herkömmliche Robotik-Steuerungsmethoden mit präzisen Griffen und Bewegungen sind nicht in der Lage, die Art von generalisierter Feinmotorik zu beherrschen, die für Menschen selbstverständlich ist.

Ein Ansatz zur Lösung dieser Probleme ist der Einsatz von Deep Reinforcement Learning (Deep RL), die ein neuronales Netzwerk zur Steuerung der Robotergelenke trainieren. Mit Deep RL lernt ein Roboter durch Versuch und Irrtum und wird für die erfolgreiche Ausführung der zugewiesenen Aufgabe belohnt. Leider kann diese Technik Millionen oder sogar Milliarden von Beispielen erfordern, um daraus zu lernen, was eine direkte Anwendung auf reale Roboter fast unmöglich macht.

Anwendung der Simulation

Mit dem »Isaac Robotersimulator« von Nvidia lassen sich jedoch Roboter in einem simulierten Universum trainieren. Es ist mehr als 10.000 Mal schneller als die reale Welt und gehorcht dennoch den Gesetzen der Physik.

Mithilfe von »Isaac Gym«, einem RL-Trainingsrobotersimulator, brachten Nvidia-Forscher im Rahmen des »DeXtreme«-Projekts einer Roboterhand bei, einen Würfel so zu manipulieren, dass er einer vorgegebenen Zielposition und -ausrichtung bzw. -haltung entspricht. Das Gehirn des neuronalen Netzwerks lernte dies vollständig in der Simulation, bevor es zur Steuerung eines Roboters in der realen Welt eingesetzt wurde.

Eine vergleichbare Arbeit wurde bisher nur ein einziges Mal gezeigt, und zwar von Forschern bei OpenAI. Ihre Arbeit erforderte eine weitaus anspruchsvollere und teurere Roboterhand, einen mit präzisen Sensoren zur Bewegungssteuerung ausgestatteten Würfel und einen Supercomputer-Cluster mit Hunderten von Computern für das Training.

Demokratisierung der Fingerfertigkeit

Die im Rahmen des DeXtreme-Projekts verwendete Hardware wurde so einfach und kostengünstig wie möglich gewählt, damit Forscher auf der ganzen Welt die Experimente nachvollziehen können. Bei dem Roboter selbst handelt es sich um eine Allegro-Hand, die nur ein Zehntel so viel kostet wie einige Alternativen, vier statt fünf Finger hat und kein bewegliches Handgelenk besitzt. Weiterhin verwendeten die Entwickler drei handelsübliche RGB-Kameras, um den 3D-Würfel mithilfe von Bildverarbeitung zu verfolgen. Er kann bei Bedarf einfach neu positioniert werden, ohne dass spezielle Hardware erforderlich ist. Zudem wurde der Würfel in 3D gedruckt und mit Aufklebern auf jeder Seite versehen.

Nvidias Entwickler trainieren DeXtreme mit »Isaac Gym«, einer durchgängigen, GPU-beschleunigten Simulationsumgebung für Reinforcement Learning. Nvidias »PhysX« simuliert zudem die Welt auf dem Grafikprozessor – die Ergebnisse bleiben während des Trainings des Deep-Learning-Steuerungsnetzwerks im GPU-Speicher. Aus dem Grund kann das Training auf einem einzigen Omniverse OVX-Server stattfinden. Das Training einer guten Richtlinie dauert auf dem System etwa 32 Stunden, was der Erfahrung eines einzelnen Roboters in der realen Welt von 42 Jahren entspricht.

Der Verzicht auf einen separaten CPU-Cluster für die Simulation bedeutet eine 10- bis 200-fache Reduzierung der Rechenkosten für das Training bei den derzeitigen Cloud-Mietpreisen.

Wahrnehmung und synthetische Daten

Damit der Roboter die aktuelle Position und Ausrichtung des Würfels, den er in der Hand hält, erkennen kann, benötigt er ein Wahrnehmungssystem. Um die Kosten niedrig zu halten und die Möglichkeit offen zu halten, in Zukunft auch andere Objekte zu manipulieren, verwendet DeXtreme drei handelsübliche Kameras und ein weiteres neuronales Netz, das die Position des Würfels interpretieren kann.

Das Netz wird anhand von etwa 5 Mio. synthetischer Daten trainiert, die mit »Omniverse Replicator« erzeugt wurden, und mit keinerlei echten Bildern. Das Netz lernt, wie es die Aufgabe unter schwierigen Bedingungen in der realen Welt erfüllen kann. Um das Training robuster zu machen, verwenden die Entwickler eine Technik namens »Domain Randomization«, um die Beleuchtung und die Kamerapositionen zu ändern, sowie eine Datenerweiterung, um zufällige Ausschnitte, Drehungen und Hintergründe anzuwenden.

Das DeXtreme-Positionsschätzungssystem ist zuverlässig und kann selbst dann genaue Posen erkennen, wenn das betreffende Objekt teilweise verdeckt ist oder wenn das Bild erhebliche Bewegungsunschärfen aufweist.

Echte Roboter sind immer noch eine Herausforderung

Einer der Hauptgründe für den Einsatz von Simulationen ist, dass das Training von Robotern direkt in der realen Welt mit verschiedenen Herausforderungen verbunden ist. Zum Beispiel kann die Roboterhardware nach übermäßigem Gebrauch kaputt gehen. Auch die Iterationszyklen von Experimenten und die Durchlaufzeiten können langsam sein.

Bei den durchgeführten Experimenten mussten die Entwickler die Hand nach längerem Gebrauch oft reparieren, zum Beispiel die losen Schrauben festziehen, die Flachbandkabel austauschen und die Hand nach 10 bis 15 Versuchen zum Abkühlen anhalten. Mit Simulationen konnten viele der Probleme umgangen werden. Denn die Entwickler konnten mit einem Roboter trainieren, der sich nicht abnutzt, aber auch die große Vielfalt an Daten liefert, die zum Erlernen anspruchsvoller Aufgaben erforderlich ist. Da Simulationen viel schneller als in Echtzeit ablaufen können, wird gleichzeitig der Iterationszyklus massiv verbessert.

Beim Training in der Simulation besteht die größte Herausforderung darin, die Lücken zwischen den Simulationen und der realen Welt zu schließen. Um das Problem zu lösen, verwendet DeXtreme die Randomisierung der physikalischen Eigenschaften, die im Simulator eingestellt sind: die Änderung von Objektmassen, Reibungswerten und anderen Attributen in über hunderttausend simulierten Umgebungen zur gleichen Zeit.

Ein interessantes Ergebnis der Randomisierung ist, dass die KI mit allen möglichen ungewöhnlichen Kombinationen von Szenarien trainierbar ist, was sich bei der Durchführung der Aufgabe in der realen Welt als robust erweist. Die meisten Experimente mit dem echten Roboter fanden beispielsweise mit einem leicht defekten Daumen statt, der durch einen Wackelkontakt auf der Platine verursacht wurde. Die Entwickler waren positiv überrascht, dass die Strategien trotzdem zuverlässig von der Simulation auf die reale Welt übertragen wurden.

Von der Simulation zur Realität

Künftige Durchbrüche in der Robotermanipulation werden eine neue Welle von Robotikanwendungen jenseits der traditionellen industriellen Anwendungen ermöglichen. Im Mittelpunkt des DeXtreme-Projekts steht die Botschaft, dass die Simulation ein unglaublich effektives Werkzeug für das Training komplexer Robotersysteme sein kann. Das gilt sogar für Systeme, die mit Umgebungen umgehen müssen, in denen Objekte in ständigem Kontakt mit dem Roboter stehen. Nvidias Entwickler hoffen, dass sie, indem sie das mit relativ kostengünstiger Hardware demonstrieren, andere dazu inspirieren können, diese Simulationswerkzeuge zu nutzen und auf der Arbeit aufzubauen. Die Videos zur Simulation finden Sie auf der Homepage von Nvidia.

passend zum Thema


Lesen Sie mehr zum Thema


Das könnte Sie auch interessieren

Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu NVIDIA Corporate

Weitere Artikel zu Künstliche Intelligenz (KI)

Weitere Artikel zu Automatisierung