Ferdinand Reitze, Framos
»Stereo ist Treiber, ToF wird interessanter«
In der Industrie wird Stereo-Vision in absehbarer Zeit das dominierende 3D-Bildverarbeitungs-Verfahren sein, gefolgt von Time of Flight (ToF). Ferdinand Reitze, Product Manager 3D bei Framos, erläutert die These und gibt nähere Informationen.
Markt&Technik: Was hat sich in der 3D-Bildverarbeitung in den vergangenen Jahren technisch getan? Welche technischen Trends zeigen sich dort momentan?
Ferdinand Reitze: Immer mehr ASICs und SoCs enthalten eine Hardware Stereo Pipeline/Depth Engine, um die Depth Map direkt im Gerät zu berechnen und damit Ressourcen in der Haupt-CPU zu schonen. Allerdings ist die Qualität sehr unterschiedlich, und nur dedizierte SoCs für Stereo-Kameras liefern Qualität für Anwendungen über die Consumer-Elektronik hinaus.
3D-Kameras werden immer häufiger mit KI-Beschleunigern kombiniert, um Smart Edge Cameras zu bilden. Triebfeder ist hier unter anderem der Datenschutz: Personen können dadurch direkt in der Kamera unkenntlich gemacht oder sogar nur die relevanten Metadaten gestreamt werden - Person erkannt, männlich, befindet sich hier und da in diesem Abstand.
Darüber hinaus finden erste Versuche mit neuronalen Netzen statt, um geometrische und physikalische Berechnungsmethoden für die Ermittlung der Punktwolke oder Depth Map zu verbessern oder sogar zu ersetzen.
Was kann die 3D-Bildverarbeitung in industriellen und nichtindustriellen Anwendungen leisten, auch im Vergleich zur 2D-Bildverarbeitung?
Sie ermöglicht in erster Linie, den Abstand eines Objekts zu bewerten oder zu messen– mal mehr, mal weniger genau, je nach Technologie und Ausführung. Tiefendaten lassen sich dann direkt nutzen, um eine Kollision zu vermeiden, aber auch weiterführend, um einen optimalen Pfad zu ermitteln, ein Objekt zu umfahren oder ein Objekt von A nach B zu transportieren, wie bei AGVs in der Logistik, und gegebenenfalls auch korrekt zu positionieren, etwa bei Pick-and-Place-Anwendungen in der Robotik. Zudem lassen sich Tiefendaten nutzen, um Objekterkennungsalgorithmen robuster zu machen.
In der Qualitätssicherung werden Tiefendaten schon seit geraumer Zeit zur Erkennung von Abweichungen und Defekten genutzt, die in 2D eventuell nur sehr schwer oder gar nicht zu erkennen sind, wie Wölbungen auf homogenen Oberflächen. Ferner können Tiefendaten falsch positive Erkennungen reduzieren, etwa in Gesichtserkennungs-Anwendungen, bei denen zwischen einer flachen Maske oder einem Foto und einem Gesicht unterschieden werden soll.
Die Tiefeninformation öffnet die Tür für kognitiv anspruchsvollere, komplexere und abwechslungsreichere Aufgaben in der Robotik. Bisher war Automatisierung oft repetitiven Arbeitsschritten mit hoher Wiederholung vorbehalten. In Zukunft wird es immer kostengünstiger, auch komplexe Aufgaben zu automatisieren.
Welche 3D-Bildverarbeitungsverfahren eignen sich für welche Anwendungen besonders und warum?
Dies hängt von der Anwendung und vielen örtlichen Faktoren ab, sodass eine allgemeingültige Antwort hier nicht möglich ist.
In der Industrie sehen wir Stereo weiterhin als Treiber, vor allem durch die Robustheit gegenüber wechselnden Lichtbedingungen. ToF wird durch den technischen Fortschritt in einigen Anwendungen aber interessanter, weil die Technologie immer robuster für verschiedene Lichtbedingungen wird. Structured Light sehen wir vornehmlich in preisgünstigen Geräten mit geringen Anforderungen an die Operating Range oder in der Messtechnik – das Verfahren ist bei wechselnden Lichtbedingungen nicht robust und eignet sich nur für kurze Distanzen; entscheidend ist die Stärke der Lichtquelle.
Das höchste Wachstum erreicht ToF durch Consumer Devices wie etwa Smartphones, aber auch durch Automotive-Lidar-Systeme. In der Robotik und Automatisierung erwarten wir jedoch ein anziehendes Wachstum der Stereo-Technologie.
Welche Vorteile hat die 3D- gegenüber der 2D-Bildverarbeitung in der Robotik? Welche 3D-Bildverarbeitungsverfahren bieten sich dort besonders an?
2D-Verfahren zur Berechnung der Entfernung eines Objekts sind zwar kostengünstig, können aber durch Scale Drift und geringe Robustheit nicht mit der Qualität von Stereo oder anderen Verfahren mithalten.
Wenn man die Entfernung eines Objekts per Sensor ermittelt, können Systeme dynamisch auf verschiedene Situationen reagieren. Ohne diese Information ist beispielsweise bei einer automatisierten Pick-and-Place-Lösung vorab die Start- und Endposition des zu greifenden Objekts zu definieren, sodass der Roboter dann auf Basis der internen Positionsberechnung entsprechend programmiert werden kann. Wird der Roboter minimal verrückt, kann dies den Prozess stören oder sogar komplett beenden.
Auch hier hängt die Wahl des Verfahrens von mehreren Faktoren ab. Generell eignet sich Stereo durch die Robustheit gegenüber verschiedensten Lichtbedingungen. Bei bestimmten oder vollständig kontrollierten Lichtbedingungen kann ToF vorteilhaft sein, weil die Kantenschärfe besser sein kann – dies hängt davon ab, welche Preisklasse von Systemen man vergleicht.
Wie lassen sich 3D-Sensoren bzw. 3D-Kameras in Embedded-Vision-Systeme integrieren?
3D-Systeme werden als Module angeboten und lassen sich so platzsparend eindesignen. Bei einigen Angeboten können Kunden sich komplett auf das mechanische Design und die Integration der Tiefeninformation in ihre Anwendung konzentrieren. Bei anderen ist eine Anpassung an die Anforderungen der Kunden nötig, um optimale Ergebnisse zu erzielen.
Möglich ist es auch, auf eine eigene Entwicklung zu setzen: Stereo-Kameras erfordern »nur« zwei Kameras und entsprechende Hardware-Ressourcen für das Stereo-Matching. Von diesem einfachen Ausgangspunkt ist es dann aber sehr aufwendig, zu einer robusten, kalibrierten Lösung zu kommen, deren Algorithmus bestmöglich auf die Quelldaten abgestimmt ist und die auch bei thermischem Stress, Vibrationen und Stößen zuverlässige Daten liefert. Nur für wenige Kunden ist es deshalb interessant, diesen Weg allein zu gehen, wobei dies auch für andere Verfahren gilt.
ToF und Structured Light sind interessant, weil sie einen geringeren Platzbedarf haben als Stereo. Structured Light erfordert zwangsläufig zwei Kameras in einem bestimmten Abstand, der unter anderem vom gewünschten Arbeitsbereich abhängt. Wegen der Einschränkungen beim Arbeitsbereich ist Structured Light aber nur in Einzelfällen interessant.