Dr. Martin Hennemann, IDS Imaging Development Systems
»3D Vision macht Roboter flexibel«
In der Robotik ist die 3D-Bildverarbeitung mittlerweile ein Muss. Doch welche Erfassungstechniken eignen sich für welche Anwendungen am besten? Dr. Martin Hennemann, Produktmanager 3D & Vision Software bei IDS Imaging Development Systems, gibt Einschätzungen.
Markt&Technik: Was hat sich in der 3D-Bildverarbeitung in den vergangenen Jahren technisch getan? Welche technischen Trends zeigen sich dort momentan?
Dr. Martin Hennemann: 3D-Kameratechnik versetzt Roboter in die Lage, ihre Umgebung zu analysieren, um selbstständig auf unterschiedliche Gegebenheiten zu reagieren: Die Umweltwahrnehmung mit 3D-Kameradaten ermöglicht innovative Anwendungen, die bisher nur von Menschen erledigt werden konnten. 3D-Bildverarbeitung hat folglich eine enorme Bedeutung für die Automatisierung in der Industrie, aber immer beflügelt von Forschung und Entwicklung für die Consumer-Elektronik, wie Gestensteuerung, Gesichtserkennung und Virtual Reality.
Deutlich erkennbar ist eine Entwicklung der 3D-Technologien von wenigen 3D-Messpunkten oder Linien hin zu flächiger Erfassung von Oberflächen. Außerdem zeigt sich eine Entwicklung von zuvor rein statischen Systemen zu Systemen, die auch die Erfassung von Bewegungen und Dynamik in 3D ermöglichen.
Flexible und schnelle Projektionsmethoden wie bei unseren Active-Stereo- oder Laser-Point-Triangulation-Technologien ermöglichen »3D-Kameras« als vielfältig einsetzbare Punktwolkenlieferanten. Zudem erweitert sich die Funktionspalette zur Verarbeitung von 3D-Punktwolken, etwa durch 3D-Lokalisierung.
Analog zu den Trends in der Bildverarbeitung wird auch der Umgang mit 3D-Daten durch benutzerfreundliche Software immer einfacher. Das nötige Expertenwissen wird auch hier besser in die Software integriert und intuitiv Anwendern mit unterschiedlichem Wissensstand zur Verfügung gestellt.
3D-Kamerasysteme sind mittlerweile keine sündhaft teuren Vision-Systeme für Nischenanwendungen mehr. Durch budgetfreundliche Produkte wie etwa die Ensenso-S-Serie lassen sich 3D-Daten in vielen unterschiedlichen, auch niedrigpreisigen Anwendungen und sogar im Massenmarkt einsetzen. Hierzu wurden neue 3D-Verfahren entwickelt und bestehende kosteneffizient angepasst, wie bei der Ensenso S. Auch neue SoCs und Sensoren unterstützen den Trend, kostengünstige 3D-Systeme zu entwickeln. Viele Hersteller bieten heutzutage ein breites Portfolio auf jedem Preisniveau an.
Was kann die 3D-Bildverarbeitung in industriellen und nichtindustriellen Anwendungen leisten, auch im Vergleich zur 2D-Bildverarbeitung?
Die 3D-Bildverarbeitung ermöglicht autonomes Navigieren und Bewegen von Robotern und Fahrzeugen. Als »Augen der Roboter« erkennen 3D-Bildverarbeitungssysteme deren Umfeld und machen Interaktionen möglich. Zudem überwachen sie Sicherheitszonen und verhindern Kollisionen. Auch die Vermessung von Objekten aller Art – von Autokarossen bis hin zu Leiterplatten – ist ihre Domäne.
Welche 3D-Bildverarbeitungsverfahren eignen sich für welche Anwendungen besonders und warum?
Für präzise flächenhafte Abdeckung ist Active Stereo und andere Triangulation gefragt, für grobe flächenhafte Abdeckung eignet sich Time of Flight (ToF). Flexible 3D-Kameras werden immer häufiger eingesetzt: Für Anwendungen, die eine hohe Detailgenauigkeit der Tiefeninformationen benötigen, arbeiten Ensenso-Geräte mit »Projected Texture Stereo Vision«-Verfahren reproduzierbar präzise. Unterstützt durch einen lichtstarken Projektor, werden kontrastreiche Texturen auf das abzubildende Objekt projiziert, sodass sie noch detailreichere 3D-Punktwolken erzeugen, auch bei großen Entfernungen. Damit eignen sie sich sowohl für Fabrikautomatisierung, Bin Picking oder Roboteranwendungen als auch für Qualitätskontrollen und Kommissionierarbeiten. Bei statischen Szenen lässt sich der Detailgrad mit der Ensenso-eigenen FlexView-Technologie weiter verbessern. Dazu werden mehrere Bildpaare mit unterschiedlichen Texturen aufgenommen und kombiniert, wodurch eine noch viel höhere Anzahl von Bildpunkten erzeugt und die Auflösung vergrößert werden kann.
Bei den neuen Ensenso-S-Modellen haben wir die 3D-Technik mit strukturiertem Laserlicht verbessert, um die Qualität und Robustheit der Daten zu erhöhen und zugleich die Kosten zu senken. Im Gegensatz zu den 3D-Verfahren Lidar oder ToF, die ebenfalls auf Laserlicht beruhen, resultiert die räumliche Tiefe jedes erfassten Projektionspunkts – und damit der Punktwolke – nicht aus Messungen der Lichtlaufzeit, sondern aus einer Triangulation wie bei den Ensenso-Stereo-Vision-Kameras. Speziell die Tiefeninformation von Objektkanten lässt sich dadurch mit gleichbleibend hoher Industriequalität und Auflösung ermitteln. Das Matching-Verfahren wird dabei von einem neuronalen Netz beschleunigt. Bei voller Projektorleistung sind dadurch bis zu 20 Punktwolken pro Sekunde erzielbar.
Mit der Ensenso-S-Serie können die Vorteile dreidimensionaler Objektinformationen auch in preissensiblen, hochvolumigen Projekten zur Geltung kommen, wo die hohe Genauigkeit der Ensenso-Stereo-Vision-Modelle oft nicht gefordert ist – etwa zur Raumüberwachung, bei selbstfahrenden Fahrzeugen oder in der Robotik.
Welche Vorteile hat die 3D- gegenüber der 2D-Bildverarbeitung in der Robotik? Welche 3D-Bildverarbeitungsverfahren bieten sich dort besonders an?
3D ergänzt die 2D-Kameratechnik; jede Technologie hat ihre speziellen Vorteile. Das Ensenso-SDK nutzt die Merkmale beider Technologien, um die Entwicklung geeigneter Anwendungen zu ermöglichen. Mit 3D-Daten lassen sich beispielsweise Formen, Oberflächenstrukturen oder die Lage von Objekten im Raum ermitteln und vermessen; mit 2D-Daten sind Kanten und Farben präzise detektierbar und Kennzeichnungen wie etwa QR- und Strichcodes aus Texturen lesbar.
Automobilhersteller beispielsweise verwenden Prüfverfahren auf Kamerabasis mit kombinierter 3D- und 2D-Technik in der Endkontrolle, um Spaltmaße an fertig montierten Karosserien zu finden und genau nach Vorgaben zu prüfen oder zu messen.
Wie lassen sich 3D-Sensoren bzw. 3D-Kameras in Embedded-Vision-Systeme integrieren?
Prinzipiell analog zu 2D-Kameras. Ihr Aufbau ist zwar etwas komplexer, weil sie meist mehr Komponenten zur Bildgebung benötigen – es braucht immer eine Projektion oder einen Lichtpuls und Kamera(s) zur Erfassung –, aber sie arbeiten mit denselben Schnittstellen, etwa USB oder Ethernet, und ihre Ergebnisse werden ebenfalls mit Bildverarbeitungs-Software weiterverarbeitet oder zu Ergebnissen des Vision-Systems. Kleine Baugrößen haben Einfluss auf die nutzbare 3D-Auflösung, besonders für Systeme wie etwa Ensenso-Kameras, die mit Triangulierung arbeiten.
Sensornahe Rechenleistung ist notwendig, weil 3D-Daten (Punktwolken) nicht direkt von einem Sensor erzeugt werden wie die Bilddaten eines 2D-Sensors, sondern je nach System erst berechnet und erzeugt werden müssen. Dies erfolgt bei jedem System und Hersteller unterschiedlich. Die Rechenleistung lässt sich embedded im 3D-System oder mit einen zusätzlichen PC zur Verfügung stellen. Die Ensenso-XR-Serie kombiniert beispielsweise den flexiblen, modularen Aufbau der Ensenso-X-Serie mit den Vorteilen eines Embedded-Systems: Ihre leistungsstarke Projektoreinheit mit integriertem SoC verarbeitet die Bilddaten selbstständig, sodass 3D-Daten direkt von der Kamera zur Verfügung stehen.