80x mehr Rechenleistung als DSP ARMs Projekt Trillium soll maschinelles Lernen revolutionieren

ARM hat unter dem Codenamen“ Projekt Trillium“ angekündigt, zwei Prozessoren für maschinelles Lernen zu entwickeln, die auch zusätzliche IP und Software beinhalten. Diese sollen gegenüber CPU, GPUs und DSPs deutlich energieeffizienter arbeiten.

Bis jetzt lag ARMs Fokus auf den CPU-ISA-Erweiterungen von Armv8.2., die spezialisierte Anweisungen einführen, welche Implementierungen von neuronalen Netzwerken mit Hilfe von Gleitkomma-Skalarprodukten mit halber Genauigkeit und Ganzzahl-Skalarprodukten vereinfachen und beschleunigen. Neben den CPU-Verbesserungen gab es in der Mali-G72 auch GPU-Verbesserungen für das maschinelle Lernen. Obwohl diese beiden Verbesserungen hilfreich sind, sind sie in Anwendungsfällen unzureichend, in denen maximale Leistung und Energieeffizienz erforderlich sind.

Wie Arm erklärt, waren die Verbesserungen bei Armv8.2 und der GPU nur die ersten Ergebnisse bei der Etablierung von Lösungen für maschinelles Lernen, während parallel dazu der Bedarf an dedizierten Lösungen untersucht wurde. Der Druck der Industrie durch die Partner führte schließlich zu der Entwicklung der nun angekündigten IP.

Die Prozessoren sind die ARM ML und die ARM OD, wobei OD für die Objekterkennung steht. Diese Geräte ermöglichen Millarden von Operationen pro Sekunde und sind für den Einsatz auf Edge-Geräten wie in Mobiltelefonen vorgesehen. In der Tat behauptet ARM, dass der ML-Prozessor die "effizienteste Lösung zum Ausführen von neuronalen Netzen" ist.

Der ARM ML umfasst Fixed-Function-Engines und programmierbare Layer-Engines für ausgewählte primitive Operationen und ermöglicht gleichzeitig Weiterentwicklungen für zukünftige Algorithmen. Eine Netzwerksteuereinheit verwaltet die gesamte Ausführung des neuronalen Netzwerks und eine DMA-Einheit bewegt Daten in den Hauptspeicher und aus diesem heraus. Der Onboard-Speicher ermöglicht die zentrale Speicherung von Gewichtungen und Feature-Maps und reduziert so den Datenverkehr zum externen Speicher und damit auch die Leistungsaufnahme.

Der ML-Prozessor von Arm verspricht einen theoretischen Durchsatz von über 4,6TOPs (8-Bit-Integer) bei einer Leistungsaufnahme von etwa 1,5 W, was eine Energieeffizienz von bis zu 3TOPs / W bedeutet. Die Schätzungen zu Stromaufnahme und Energieeffizienz basieren auf einer 7-nm-Implementierung der IP.

Der ML-Prozessor kann eigenständig verwendet werden, kann aber auch mit dem OD-Prozessor verwendet werden, der als zweite Generation des Object Detection-Prozessors von ARM bezeichnet wird. Dieser wurde entwickelt, um mit 2D-Feldern und insbesondere mit visuellen Feldern zu arbeiten.

Der OD-Prozessor ist ein traditionellerer Vision-Prozessor und ist für die Objekterkennung optimiert. Es besteht immer noch ein Bedarf für eine solche IP, denn obwohl der ML-Prozessor die gleiche Aufgabe über neuronale Netze ausführen kann, kann der OD-Prozessor dies schneller und effizienter tun. Dies zeigt, wie weit die Branche dedizierte IP für extrem spezialisierte Aufgaben entwickelt, um die maximale Energieeffizienz zu erreichen.

Der OD-Prozessor scannt jeden Frame bei 60 fps und liefert eine Liste der erkannten Objekte sowie deren Position innerhalb der Szene. Das Gerät erkennt menschliche Formen, Gesichter, Köpfe und Schultern und kann sogar die Richtung bestimmen, in die jede Person blickt. Die erkannten Objektgrößen können bis zu 50 mal 60 Pixel groß sein.

Laut ARM bietet der OD-Prozessor die 80-fache Leistung eines herkömmlichen DSP und eine deutliche Verbesserung der Erkennungsqualität im Vergleich zu früheren Arm-Technologien.

Der OD-Prozessor soll als Vorprozessor zur Erkennung interessierender Bereiche - und insbesondere von Personen von Interesse - verwendet werden und kann mit ARM Cortex-CPUs, Mali-GPUs und dem ML-Prozessor verwendet werden.

Die ML- und OD-Prozessoren können zusammen oder getrennt eingesetzt werden, sie können jedoch auch die ARM NN-Software und die ARM Compute Library verwenden.

Die ARM NN-Software wird zusammen mit der ARM Compute Library und CMSIS-NN für NNs optimiert und schließt die Lücke zwischen NN-Frameworks wie TensorFlow, Caffe und Android NN sowie der gesamten Palette der Cortex-CPUs, Mali-GPUs und ML-Prozessoren.

ARM ergänzte, dass zukünftige ML-Produkte Rechenleistungen für alle möglichen Anwendungen von Sensoren und intelligenten Lautsprechern bis hin zu Mobilgeräten, Home Entertainment und darüber hinaus abdecken werden.

Die IP-Suite für maschinelles Lernen wird ab Mitte 2018 verfügbar sein.