Bildverarbeitung auf KI-Basis mit Robotik einzusetzen, bietet sich an, um industrielle Prozesse effizienter und kostengünstiger zu machen. Der Use Case „Vision Guided Robot“ zeigt, wie sich Pick-and-Place-Aufgaben mit einem Roboter und einer Embedded-KI-Vision-Kamera ohne PC automatisieren lassen.
Für „smartes Greifen“ müssen verschiedene Disziplinen optimal zusammenarbeiten. Wenn die Aufgabe lautet, Produkte unterschiedlicher Größe, Form, Material oder auch Qualität mittels Robotern zu sortieren, muss nicht nur gegriffen, sondern vorher identifiziert, analysiert und lokalisiert werden. Mit regelbasiert arbeitenden Bildverarbeitungssystemen ist das gerade bei kleinen Losgrößen oft nicht nur sehr aufwendig, sondern auch kaum wirtschaftlich lösbar. Doch in Kombination mit auf KI-Basis erzeugten Schlussfolgerungen (Inferenzen) lassen sich Industrierobotern schon heute die nötigen Fähigkeiten und das Produktwissen von Facharbeitern antrainieren. Für die einzelnen Teilaufgaben muss das Rad nicht neu erfunden werden: Es genügt, die richtigen Produkte interdisziplinär als „smartes Robot-Vision-System“ effektiv zusammenarbeiten zu lassen.
In einer Fertigungslinie liegen Objekte zufällig verstreut auf einem Förderband. Die Objekte müssen erkannt, ausgewählt und in eine Verpackung gelegt oder für eine Verarbeitungs- bzw. Analysestation lagerichtig weitergereicht werden. Das Softwareunternehmen urobots hat für die Erfassung von Objekten und die Robotersteuerung eine Lösung auf PC-Basis entwickelt. Sein trainiertes KI-Modell war in der Lage, die Position und Orientierung der Objekte in Kamerabildern zu erkennen, aus denen dann Griffkoordinaten für den Roboter ermittelt wurden.
Das Ziel war nun, diese Lösung in das KI-basierte Embedded-Vision-System von IDS Imaging Development Systems zu portieren. Dabei kam es urobots vor allem auf zwei Aspekte an. Erstens sollen Anwender das System ohne spezielle KI-Expertise für verschiedene Applikationen selbst anpassen können, also auch wenn sich in der Produktion etwas ändert, beispielsweise das Aussehen der Objekte und die Beleuchtung, oder wenn weitere Objekttypen eingebunden werden sollen. Zweitens sollte das Gesamtsystem durch direkte Kommunikation der Gerätekomponenten vollständig ohne PC arbeiten, um sowohl kostengünstig als auch leicht und platzsparend zu sein. Beide Anforderungen deckt IDS mit dem Inferenzkamerasystem „IDS NXT ocean“ ab.
Ein trainiertes neuronales Netz identifiziert alle Objekte im Bild und detektiert deren Position und Orientierung. Durch die KI funktioniert dies nicht nur für feste und immer gleich aussehende Objekte, sondern auch wenn viel natürliche Varianz vorliegt, etwa bei Lebensmitteln, Pflanzen oder anderen flexiblen Objekten. Daraus resultiert eine stabile Positions- und Lageerkennung der Objekte. Die Firma urobots trainierte für einen ihrer Kunden das Netz mit eigener Software und eigenem Wissen und lud es dann in die IDS-NXT-Kamera hoch. Dazu musste es in ein spezielles optimiertes Format übersetzt werden, das einer Art „verketteten Liste“ gleicht. Die Portierung des trainierten neuronalen Netzes für die Verwendung in der Inferenzkamera war mit dem von IDS bereitgestellten Tool „IDS NXT ferry“ problemlos möglich. Aus jeder Schicht des CNN (Convolutional Neural Network) wird dabei ein Knotendeskriptor, der die Schicht genau beschreibt. Am Ende entsteht eine vollständige verkettete Liste des CNN in binärer Darstellung. Der speziell für die Kamera entwickelte CNN-Beschleuniger „IDS NXT ocean core“ auf Basis eines FPGA kann dieses universelle CNN dann optimiert ausführen.
Die von urobots entwickelte Vision App berechnet anschließend aus den Detektionsdaten optimale Griffpositionen für einen Roboter. Doch damit war die Aufgabe noch nicht gelöst. Neben den Ergebnissen, was, wo und wie gegriffen wird, musste eine direkte Kommunikation zwischen der IDS-NXT-Kamera und dem Roboter hergestellt werden. Gerade diese Aufgabe ist nicht zu unterschätzen - hier entscheidet sich oft, wie viel Zeit, Geld und Manpower in eine Lösung investiert werden muss. urobots implementierte mit dem „IDS NXT Vision App Creator“ ein Netzwerkprotokoll auf XMLRPC-Basis in der Vision App der Kamera, um die konkreten Arbeitsanweisungen direkt an den Roboter weiterzureichen. Die finale KI-Vision-Applikation detektiert Objekte in etwa 200 ms und erreicht eine Lagegenauigkeit von ±2 Grad.
»Die komplette Bildverarbeitung läuft in der Kamera, die direkt über Ethernet mit dem Roboter kommuniziert«, erläutert Alexey Pavlov, Geschäftsführer von urobots. »Möglich ist dies durch eine mit dem IDS NXT Vision App Creator entwickelte Vision App, die den IDS NXT KI core verwendet. Die Vision App versetzt die Kamera in die Lage, vortrainierte (2D-)Objekte in den Bildinformationen zu lokalisieren und identifizieren. So lassen sich Werkzeuge, die auf einer Ebene liegen, lagerichtig greifen und auf einen dafür vorgesehenen Platz legen. Das PC-lose System spart Kosten, Platz und Energie, was leichte und kostengünstige Kommissionierungslösungen ermöglicht.«
Nicht allein die KI macht den Use Case bemerkenswert. Auch die Tatsache, dass die Lösung vollständig ohne einen zusätzlichen PC funktioniert, ist in zweierlei Hinsicht interessant. Weil die Kamera selbst Bildverarbeitungsergebnisse erzeugt und nicht nur Bilder liefert, kann zum einen auf die PC-Hardware und alle damit verbundene Infrastruktur verzichtet werden, was letztlich die Anschaffungs- und Instandhaltungskosten der Anlage senkt. Ganz oft ist es aber auch wichtig, dass Prozessentscheidungen direkt vor Ort getroffen werden, also „in time“. Folgeprozesse lassen sich dadurch schneller und ohne Latenzen ausführen, was in manchen Fällen auch eine Erhöhung der Taktrate ermöglicht.
Ein weiterer Aspekt betrifft die Entwicklungskosten. KI-Vision bzw. das Trainieren eines neuronalen Netzes funktioniert ganz anders als klassische, regelbasierte Bildverarbeitung, und damit ändern sich auch die Herangehensweise an und die Bearbeitung von Bildverarbeitungsaufgaben. Die Qualität der Ergebnisse ist nicht mehr das Produkt eines von Bildverarbeitungsexperten und Anwendungsentwicklern manuell entwickelten Programmcodes. Das heißt: Wenn eine Anwendung auf KI-Basis lösbar ist, lassen sich mit IDS NXT ocean Kosten und Zeit für entsprechende Experten einsparen, denn mit der umfangreichen und nutzerfreundlichen Software-Umgebung kann jede Anwendergruppe ein neuronales Netz trainieren, die dazu passende Vision App entwerfen und in der Kamera ausführen.
Der Use Case „Vision Guided Robot“ zeigt, wie aus einer Computer Vision eine PC-lose Embedded-KI-Vision-Applikation werden kann. Auch die Erweiterbarkeit durch das Vision-App-Konzept, die Entwicklung von Anwendungen für verschiedene Zielgruppen und ein durchgehender Hersteller-Support sind Vorteile des Embedded-Systems. Die Kompetenzen in einer Applikation sind klar verteilt: Die Aufmerksamkeit des Anwenders kann bei seinem Produkt bleiben, während sich IDS und urobots auf Training und Ausführung der Vision-KI sowie die Steuerung des Roboters konzentrieren. Durch die Kommunikation auf Ethernet-Basis und die offene IDS-NXT-Plattform ist die Vision App auch leicht für andere Objekte und Robotermodelle und somit für viele ähnliche Anwendungen adaptierbar.