Merkmalserkennung Hochgradig energieeffizient mit 55,3 TOPS/W

Diese beeindruckende Energieeffizienz erreicht die von Dongsuk Jeon vom Department of Electrical Engineering and Computer Science an der University of Michigan vorgestellte Beschleunigungsschaltung für die Merkmalserkennung (Feature Extraction).

Maschinelles Sehen (Computer Vision) wird immer häufiger eingesetzt, sei es in Überwachungssystemen oder auch im Fahrzeug. Für Computer Vision Systeme ist die Merkmalserkennung eine kritische Funktion. Dabei tritt laut Jeon aber das Problem auf, dass qualitativ hochwertige Algorithmen zur Merkmalserkennung sehr rechenintensiv und energiehungrig sind und damit nicht für embedded Anwendungen geeignet sind, die nur ein limitiertes Leistungsbudget haben, außer die Algorithmen sind auf sehr spezielle Applikationen zugeschnitten. Algorithmen, die vom Rechenaufwand her nicht so anspruchsvoll sind, würden wiederum bei der Merkmalserkennung eine schwache Leistung bringen und damit nur in wenigen Applikationen genutzt werden können. Jeon: »In mobilen, batteriebetriebenen Systeme gibt es aber auch einen steigenden Bedarf an höherer Funktionalität, nur die engen Leistungsbudgets verhindern die praktische Implementierung einer Computer-Vision-Funktion.«

Der jetzt vorgestellte energieeffizienten SURF-Beschleuniger soll beides können: Merkmale gut erkennen und trotzdem energiesparend sein. Bei der Entwicklung dieses Beschleunigers hatte das Team als Zielanwendung Drohnen/Micro Air Vehicles (MAVs) mit einer autonomen Navigation im Auge. Dabei ging es darum, ein Leistungsbudget von lediglich 10 mW für die Verarbeitung nicht zu sprengen.

Laut Jeon würde typischerweise für die Merkmalserkennung folgender Ansatz genutzt: Die Hardware besteht aus einer Multi-Core-Lösung mit komplexen Bus und teuren Prozessorkernen; bei der Software wiederum handelt es sich um einen applikationsspezifischen Extraktionsalgorithmus, der Daten nur aus interessanten Bereichen (ROIs) extrahiert. Damit sinkt zwar die benötigte Rechenleistung, aber solch ein Ansatz lässt sich natürlich nicht verwenden, wenn ein komplettes Bild analysiert werden muss – was für eine visuelle Navigation aber unabdingbar ist. Deshalb geht die University of Michigan einen anderen Weg. Sie setzt auf der Hardware-Seite auf einen Beschleuniger mit einer FIFO-basierenden Architektur, der hochgradig parallel arbeitet. Auf der Software-Seite wiederum wird ein genereller Merkmalerkennungs-Algorithmus genutzt, wobei das Institut den Algorithmus und die Architektur aufeinander abgestimmt hat.

Das Institut hat diverse Optimierungen auf der Hardware-Seite durchgeführt, wie die Nutzung von Latch-basierenden Schieberegistern anstatt Flip-Flops; ein Deskriptor, der dank eines gemeinsamen Datenflusses sehr wenig Speicher und Kommunikationsaufwand benötigt. Gefertigt in einem 28-nm-LP-Fertigungsprozess kommt der Beschleuniger auf eine Rechenleistung von 149,3 GOPS in Kombination mit der oben bereits erwähnten Energieeffizienz von 55,3 TOPS/W. Für die Verarbeitung eines Videos mit 30 Bildern pro Sekunde (640 x 480) muss der Accelerator lediglich mit einer Taktfrequenz von 27 MHz laufen bei 470 mV laufen. Der Merkmalerkennungs-Core selbst verbraucht nur 2,7 mW um die Höchstleistung von 55,3 TOPS/W zu bringen. Jeon abschließend: »Auch für die Verarbeitung eines Videos mit 30 fps und einer Auflösung von 1280 x 720 muss die Taktfrequenz nur auf 81 MHz bei 600 mV erhöht werden, so dass die Leistungsaufnahme lediglich auf 12 mW steigt.«