Aus der Vogelperspektive

Entwicklung eines 4D-Wahrnehmungssystems für autonome Fahrzeuge

5. April 2023, 9:00 Uhr | Autor: Dr. Owen Zhu, Redaktion: Irina Hübner
Diesen Artikel anhören

Fortsetzung des Artikels von Teil 1

Techniken zur Datenerweiterung

Darüber hinaus trägt auch die Anwendung mehrerer Algorithmen zur Datenerweiterung dazu bei, die Leistung von DABNet4D zu optimieren. Der Hauptgrund dafür ist, dass der nuScenes-Datensatz im aktuellen Open-Source-Datensatz für autonomes Fahren zwar groß, aber im Vergleich zu realen autonomen Fahrszenarien immer noch relativ klein ist. Einige Zielkategorien kommen im gesamten Datensatz nur wenige Male vor. Diese Unausge-wogenheit der verschiedenen Zielkategorien im Datensatz hat einen enormen negativen Einfluss auf die Verbesserung der allgemeinen Erkennungsleistung des Modells.

Daher verwendet DABNet4D verschiedene Datenerweiterungstechniken, wie zum Beispiel Bilddatenerweiterung, BEV-Merkmalserweiterung und GT-Paste-Erweiterung, um die Erkennungsleistung des Modells zu verbessern. Darüber hinaus ist die Verwendung von aussagekräftigeren Merkmals-extraktionsnetzwerken für die Verbesserung der Gesamtleistung hilfreich.

Inspur testete mehrere typische Netzwerke zur visuellen Merkmalsextraktion, wie die EfficientNet-Serie, die Swin-Transformer-Serie und die ConvNeXt-Serie, und entschied sich schließlich für die ConvNeXt-Netzwerkarchitektur zur Extraktion von Bildmerkmalen. Durch die Kombination dieser algorithmischen und technischen Innovationen erreicht DABNet4D die beste 3D-Objekterkennungsgenauigkeit in der NuScenes-Liste für reine Kameraerkennung (Pure Vision).

Umfassende Infrastruktur für die Datenverarbeitung

Es ist wichtig zu erwähnen, dass auch eine umfassende Computerinfrastruktur eine entscheidende Rolle bei dieser Aufgabe spielt. Im Vergleich zum Training von 2D-Zielerkennungsmodellen wie der Yolo-Serie erfordert das Training von DABNet4D mehr Rechenleistung und eine bessere Unterstützung der Computerplattform.
 
Die in dieser Studie erstellten Modelle DABNet4D-tiny und DABNet4D-base haben 59,1 Millionen bzw. 166,6 Millionen Parameter. Obwohl die Anzahl der Modellparameter nicht be- sonders groß ist, haben die verwendeten Eingabedaten eine Auflösung von 1600x900, was viel größer ist als die Bildgröße für das Training von 2D-Zielerkennungsnetzwerken in Datensätzen wie ImageNet und COCO.

Dies bedeutet, dass die während des Modelltrainings ausgegebene Merkmalskarte sehr groß ist und daher mehr GPU-Speicherplatz benötigt. Gleichzeitig bedeutet die Einführung mehrerer Kameraansichten und zeitlicher Daten, dass größere Datenstapel für das Modelltraining erforderlich sind. Die Verwendung von Daten von sechs Kameras in drei aufeinanderfolgenden Frames bedeutet zum Beispiel, dass die Größe jedes Eingabestapels 18 beträgt.

Inspur Information trainierte das Modell mit mehreren 5488A5-GPU-Serverplattformen, die mit 40 GB und 80 GB GPU-Speicher der Nvidia-Ampere-Architektur ausgestattet waren. Die GPUs nutzen die NV-Switch Full-Interconnect-Architektur, um die hohen Anforderungen an Speicher und Kommunikationsbandbreite für das Modelltraining zu erfüllen. Darüber hinaus hilft AIStation (ein Ressourcenmanagementsystem), das auf den Servern eingesetzt wird, sehr bei der Ressourcenverwaltung und der Optimierung des verteilten Trainings für die gesamte Aufgabe. Das System trägt wesentlich dazu bei, die Effizienz des gesamten Modelltrainings zu steigern.

Die Fülle der Daten spielt eine wichtige Rolle bei der Verbesserung der Wahrnehmungsleistung des rein visuellen 3D-Objekterkennungsmodells. Aus diesem Grund hat das Team im Optimierungsprozess von DABNet4D mehr Algorithmen zur Datenerweiterung eingesetzt. Der Trainingsprozess für DABNet4D auf dem NuScenes-Datensatz erforderte etwa 2.000 GPU-Stunden. Laut dem offiziellen Bericht des Tesla AI Day im Jahr 2022 gibt es 1,44 Milliarden Bilder. Bei einer Auslastung von 90 Prozent werden 100.000 GPU-Stunden benötigt.

Wenn es sich um ein einziges 8-Karten-Training handelt, dauert es 521 Tage, und der Zeitzyklus ist zu lang. Daher muss bei der Modellschulung der Einsatz von verteiltem Rechnen in Betracht gezogen und die Strategie der Datenparallelität oder der Modellparallelität für die Schulung in einem Multi-Maschinen-Cluster gewählt werden. Wenn eine Woche Training erforderlich ist, werden mindestens 75 Knoten benötigt. Wenn die Datenmenge weiter zunimmt oder die Modelle schneller iteriert werden müssen, wird ein größerer Cluster benötigt.

Unterstützung durch KI-Rechenplattformen

Im Industrialisierungsprozess des automatisierten Fahrens ist die Wahrnehmungstechnologie als Kernmodul sowohl der Ausgangspunkt als auch der Eckpfeiler. In Zukunft wird die Forschung und Entwicklung von Wahrnehmungsalgorithmen auch durch eine leistungsfähigere KI-Rechenplattform unterstützt werden.

Hier scheinen mehrgleisige Ansätze, die Rechenleistung, Algorithmen und andere Komponenten integrieren, vielversprechend und treiben auf diese Weise – wie Inspurs DABNet4D – die technologische Innovation im automatisierten Fahren voran. Angesichts der raschen Iteration der Algorithmen in der NuScenes-Liste ist es wahrscheinlich, dass mit dem weiteren Durchbruch von Rechenleistung und Algorithmen auch die Industrialisierung des automatisierten Fahrens auf der Ebene der Energiequellen stattfinden wird.

 

Owen Zhu von Inspur Information
Owen Zhu von Inspur Information
© Inspur Information

Dr. Owen Zhu

ist Senior Researcher für KI-Algorithmen für automatisches Fahren und Experte für High Performance Computing bei Inspur Information.


  1. Entwicklung eines 4D-Wahrnehmungssystems für autonome Fahrzeuge
  2. Techniken zur Datenerweiterung

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Sensoren & -systeme

Weitere Artikel zu Sensor-Aktor-Verbindungen