Startseite > Automotive > Assistenzsysteme > »‘Vielleicht ist da was‘ reicht definitiv nicht«

LeddarTech

»‘Vielleicht ist da was‘ reicht definitiv nicht«

8. November 2021, 9:03 Uhr | Iris Stroh

Schematischer Aufbau eines Perception Framework auf Basis der Fusion von Rohdaten

Reza Rashidi Far, Strategic Product Manager und Principal Lidar & AI System Product Engineer von LeddarTech, reflektiert im Gespräch mit Markt&Technik über die Fusion von Rohdaten und zeigt, welche eindeutigen Vorteile damit verbunden sind.

▶ Diesen Artikel anhören

Markt&Technik: Die Fusion von Objektlisten ist, man könnte sagen, bewährt.

Reza Rashidi Far: Ich würde sagen: Dieser Ansatz ist historisch begründet, das heißt nicht unbedingt, dass er sich langfristig bewährt. Schauen Sie: Ganz am Anfang standen Ultraschallsensoren, die beim Einparken geholfen haben. Die Ultraschallsensor-Daten wurden zur Berechnung der Parklücken und Trajektorien genutzt, auf Basis derer dann das Einparken durchgeführt wurde. Später kam dann die Objekterkennung hinzu, die anfänglich hauptsächlich Vision-Based, sprich: mit Kameras, in seltenen Fällen auch mit Infrarotsensoren, realisiert wurde.

Zu diesem Zeitpunkt wurde aber auch erkannt, dass es wichtig ist, die Umgebung zu verstehen. Die logische Konsequenz daraus war, dass das Verständnis, das von den Ultraschall- und Kamerasensoren getrennt abgeleitet wurde, von einer Einheit verarbeitet werden musste, die dafür sorgte, dass mithilfe der Zusammenfassung dieser Informationen ein Verständnis der Umgebung geschaffen werden konnte.

Mit der Einführung von Kameras wurden aber auch verschiedene Modalitäten abgedeckt. Dadurch wurde beispielsweise erkannt, dass Abstände wichtig sind. Problematisch dabei war nur, dass Distanzen mit Kameras nicht wirklich erfasst werden konnten. Die logische Folge: Stereokameras oder mehrere Kameras, mit denen versucht wurde, dieses Problem zu beheben. Gleichzeitig wurde festgestellt, dass mit Radar, aber eben auch mit Lidar, diese Tiefeninformationen mit höherer Genauigkeit und zuverlässiger verfügbar werden. Zusammengefasst heißt das für mich: Radar als weiteren Sensor hinzuzufügen war ein logischer Schritt, damit Radar seine Objektdaten ebenfalls an die Einheit liefern konnte, die für das „Environment Understanding“ notwendig war. Zu diesem Zeitpunkt haben die einzelnen Sensoren ihre Daten erzeugt, sie dann aufgrund der historischen Entwicklung einzeln zu Objektlisten verarbeitet und sie dann an den Prozessor für die Fsuion der detektierten Objekte weitergeschickt. Dieser Ansatz läuft auch unter „Late Fusion“ oder eben „Object Level Fusion“, das ist historisch bedingt die logische Entwicklung.

Aber?

Ganz klar: Dieser Ansatz hat entscheidende Nachteile. Mit den verschiedenen Sensoren werden unterschiedliche Modalitäten abgedeckt. Radar und Lidar können die Objekte quasi im physischen Sinne erkennen, Kameras wiederum erkennen Texturen. Und genau diese Tatsache hilft, die Umgebung besser zu verstehen. Wenn die Kamera das Bild eines Autos sieht, dann wird sie mit hoher Wahrscheinlichkeit auch ein Objekt eines Fahrzeugs erzeugen. Ist das Auto aber nur aufgemalt, dann sieht Radar bzw. Lidar nichts und wird das auch in den Objektlisten so niederlegen.

Das klingt doch hervorragend!

Das Problem besteht darin, dass die Sensoren, die Tiefeninformationen liefern, ebenfalls Artefakte aufweisen und Informationen liefern können, die nicht immer korrekt sind. Zum Beispiel, wenn ein Radarsensor ein Objekt aufgrund einer schlechten Auflösung oder klimatischer Bedingungen nicht erkennt.

Jobangebote+ passend zum Thema

Regional Key Account (m/w/d) für Elektronische Bauteile

KOA Europe GmbH, Dägeling

Alle Jobangebote im Elektroniknet Karrierebereich anzeigen

Und das Problem entfällt, wenn Rohdaten fusioniert werden?

Ja. Wenn wir auf Basis der Objektdaten arbeiten, bleibt ein gewisses Restrisiko bestehen. Bei allen Sensoren haben wir das Problem, dass sie Falsch-Positiv- und Falsch-Negativ-Informationen generieren, das heißt, dass selbst bei zwei Sensoren vier verschiedene Varianten kombiniert werden können. Und das macht es sehr schwierig, zu entscheiden, welche Objekte wirklich präsent sind.

Aber wenn ich Rohdaten fusioniere, muss ich entsetzlich viele Daten durch das Auto jagen.

Das ist einer der Punkte, die immer wieder gegen die Fusion von Rohdaten verwendet werden. Aber sehen wir uns das mal genauer an.

Bei der Rohdatenverarbeitung erfolgt die Objekterkennung erst nach der Fusion der Rohdaten. Ich messe mit der Kamera RGB-Daten, also Farbinformationen; mit Lidar und Radar messen wir Distanz/Tiefe. Bei der Fusion von Rohdaten werden den RGB-Daten der Kameras noch Tiefedaten bzw. Distanzdaten hinzugefügt. Das heißt, dass die Objekterkennung mit RGBd-Daten arbeitet: Jedes Pixel hat zu den Farbinformationen auch noch die Tiefeninformation. Das ist nicht so viel, wie die meisten denken.

Es ist ganz klar: Mit Kameras werden die meisten Daten generiert, in Hinblick auf Datenvolumen und Datenrate also ganz eindeutig der Killersensor. Das spiegelt sich auch in der Tatsache wider, dass in diesem Bereich extrem viel Aktivitäten stattgefunden haben, diese Daten auch energieeffizient und intelligent zu verarbeiten. Wenn wir jetzt diese Masse an Daten noch mit Informationen über Entfernung und Tiefe kombinieren, so sind die zusätzlichen Daten vernachlässigbar – höchstens ein Bruchteil. Das heißt, mit der Fusion von Rohdaten steigen die notwendigen Datenraten definitiv nicht sehr stark an.

Das klingt logisch, aber um nicht alle einzelnen Pixel durch das Fahrzeug zu übertragen, findet ja gerade direkt an der Kamera eine Vorverarbeitung statt, sodass nur noch relevante Informationen übertragen werden.

Ja, aber das ändert nichts am Prinzip. Ob vorverarbeitete Daten mit Tiefen- und Distanzinformationen ergänzt werden oder einfach nur Pixel, in beiden Fällen steigt die Datenrate aufgrund der zusätzlichen Tiefeninformation nur marginal an. Vorausgesetzt: Wir bleiben in derselben Datendomäne; wenn beispielsweise nur Features weitergeleitet werden, sieht das anders aus.

Und wie wird sichergestellt, dass die RGB-Daten, die die Kamera für relevant hält, mit den entsprechenden Tiefeninformationen versehen werden?

Bei der Datenfusion wird quasi von einem Punkt zum nächsten gegangen und die Tiefeninformation mit den jeweiligen RGB-Daten verknüpft.

Das Schöne dabei ist, dass man bei der Fusion von Rohdaten ein Wissen darüber erzeugt, wo jede Farbe lokalisiert ist, und die Distanz zu diesen Farbpunkten ist bekannt. Das ist auch bei der Fusion von Objektlisten wichtig: Man muss wissen, wo sich das Objekt befindet.