Convolutional Neural Networks (CNN) Verkehrszeichen sicher erfassen

Erkennung von Verkehrszeichen
Erkennung von Verkehrszeichen

Nach den technischen Grundlagen von neuronalen Netzen geht es im zweiten Teil des CNN-Beitrags um ihre konkrete Anwendung zur Erkennung von Verkehrszeichen. Dabei spielt auch die verwendete Hardware eine wichtige Rolle, da Embedded-Systeme nur über eingeschränkte Rechenressourcen verfügen.

Detaillierte Informationen zum Aufbau und zur Arbeitsweise von Convolutional Neural Networks (CNN) sind in dem Beitrag „Lernen statt programmieren“ zu finden. Grundsätzlich eignen sich neuronale Netze besonders für jede Form der Mustererkennung. Im Automotive-Bereich gehört dazu beispielsweise die Identifizierung von Verkehrszeichen.

Bereits 2011 wurde auf der International Joint Conference on Neural Networks (IJCNN) mit dem German Traffic Sign Recognition Benchmark (GTSRB) ein entsprechender Klassifikationswettbewerb vorgestellt. Der GTSRB besitzt folgende wesentliche Merkmale:

  • 51.840 Bilder von deutschen Verkehrszeichen in 43 Klassen (Bild 1 und 2)
  • Die Größe der Bilder variiert von 15×15 bis 222×193 Bildpunkten
  • Die Bilder sind als Farbbilder (RGB), HOG-Merkmale (Histogram of Oriented Gradients), Haar-Merkmale und Farbhistogramme verfügbar
  • Der Wettbewerb berücksichtigt nur den Klassifikationsalgorithmus; ein Algorithmus, um die ROI (Region of Interest) im Frame zu finden, ist nicht erforderlich
  • Die Zeitinformationen der Testsequenzen werden nicht ausgetauscht; so kann die zeitliche Dimension nicht im Klassifikationsalgorithmus genutzt werden.

Cadence hat verschiedene Algorithmen in Matlab für die Verkehrszeichenerkennung auf der Basis des GTSRB-Datensatzes entwickelt, beginnend mit einer Basis-Konfiguration. Die Fehlerfreie-Entdeckungs-Rate (Correct Detection Rates, CDR) von 99,24 % und der Rechenaufwand von >50 Millionen Multiplikationen-Additionen pro Verkehrszeichen werden als ein dicker grüner Punkt in Bild 3 dargestellt.

Deutlich bessere Ergebnisse hat Cadence mit dem neuen proprietären, hierarchischen CNN-Ansatz erreicht. Bei diesem Algorithmus wurden die 43 Verkehrszeichen in fünf Familien aufgeteilt. Insgesamt wurden sechs kleinere CNNs implementiert. Das erste CNN entscheidet, zu welcher Familie das erfasste Verkehrszeichen gehört. Sobald die Familie des Zeichens bekannt ist, wird ein CNN (eines der restlichen fünf) entsprechend der erkannten Familie genutzt, um das Verkehrszeichen innerhalb dieser Familie zu bestimmen. Mit diesem Algorithmus hat Cadence eine Fehlerfreie-Entdeckungs-Rate von 99,58 % erreicht, der bislang beste CDR-Wert, der beim GTSRB-Datensatz verzeichnet wurde.

Um die Komplexität von CNNs in Embedded-Anwendungen zu verringern, hat Cadence auch einen proprietären Algorithmus auf der Basis der Eigenwertzerlegung entwickelt, der ein trainiertes CNN auf seine kanonische Dimension reduziert. Mit diesem Algorithmus lässt sich die Komplexität des CNN (gemessen in Multiplikationen-Additionen pro Frame) ohne Leistungsabstriche bzw. mit einer nur leichten Verminderung der CDR drastisch reduzieren. Bild 3 zeigt die erreichten Ergebnisse:

  • Der grüne Punkt ist die Basis-Konfiguration (Baseline). Sie erfordert 53 Millionen Multiplikationen-Additionen (MACs) pro Frame für eine Fehlerrate von 0,76 % (was einer CDR von 99,24 % entspricht).
  • Der zweite Punkt von links steht für einen Algorithmus, der bei 1,47 Millionen MACs pro Frame eine Fehlerrate von 1,03 % erreicht. D.h. für eine Zunahme der Fehlerrate um 0,27 % konnte die MAC-Anforderung um einen Faktor 36,14 reduziert werden.
  • Der Punkt ganz links kennzeichnet eine Lösung, bei der 0,61 Millionen MACs pro Frame ausreichen, um eine Fehlerrate von 2,26 % zu erzielen, d.h. die Anzahl der MACs konnte um einen Faktor 86,4 vermindert werden.
  • Die blauen Punkte stehen für einstufige CNNs, wohingegen die grauen Punkte für hierarchische CNNs stehen. Die beste Leistung von 99,58 % wird mit einem hierarchischen CNN erreicht.

Die Grafik verdeutlicht damit, dass sich mit Hilfe entsprechender Algorithmen die Komplexität von CNNs tatsächlich erheblich reduzieren lässt.