Welchen Beitrag die verschiedenen Engines zur Gesamtleistung beitragen, macht Abraham anhand von ResNet50 und YoloV3 deutlich. Werden Winograd Engine, Sparsity Engine und eine 4x4-bit-Aktivierung genutzt, werden die notwendigen Zyklen für die Berechnung der Netze im Vergleich zu einer Verarbeitung nur auf Basis des MAC Arrays um einen Faktor von fast 3 reduziert (YoloV3: 3,5).
Im NeuPro-M-Core sind neben den NPM-Engines noch das NPM Common Subsystem implementiert, das unter anderem Funktionsblöcke für Security, Safety, Interfaces und Komprimierung/Dekomprimierung enthält. Dank der Komprimierung/Dekomprimierung von Gewichten und Daten in Echtzeit verringert sich die benötigte Bandbreite zu externem Speicher. Darüber hinaus betont Abraham, dass dank der Speicherhierarchie mit L1- und L2-Speicher (auf NPM-Engine und NPM Common Subsystem) die Leistungsaufnahme ebenfalls gesenkt wird, weil weniger Daten in/von externen Speichern geschrieben/geholt werden müssen. Abraham weiter: »NeuPro-M unterstützt Secure Boot und schützt Gewichte und Daten vor Diebstahl.«
Dank der Tatsache, dass die Steuerung des Gesamtsystems dezentralisiert ist und auf jeder NPM-Engine ein lokaler Controller implementiert ist, erreicht der NeuPro-M eine sehr hohe Flexibilität beim Datenfluss, sodass laut Abraham eine Auslastung der Ressourcen »von mehr als 90 Prozent möglich ist und die verschiedenen Koprozessoren und Beschleuniger nicht mit dem Problem zu kämpfen haben, dass sie zu wenig Daten haben.«
Außerdem: die NeuPro-M-Cores und der Ceva Deep Neural Network (CDNN) Deep Learning Compiler und das Software Toolkit erfüllen die Anforderungen von ASIL-B des ISO-26262-Standards und die strengen Qualitätssicherungsstandards IATF 16949 und A-Spice.
Entwicklungsunterstützung
Der CDNN (Ceva Deep Neural Network) ist ein Compiler von Ceva, der auf den Massenmarkt für eingebettete Geräte abzielt und eine breite Palette von Netzwerkoptimierungen, fortschrittliche Quantisierungsalgorithmen, Datenflussmanagement und vollständig optimierte CNN- und RNN-Bibliotheken umfasst, die es ermöglichen, in der Cloud trainierte KI-Modelle auf Edge-Geräten zur Inferenzverarbeitung einzusetzen.
CDNN unterstützt eine Vielzahl von KI-Frameworks wie ONNX, Caffe, Pytorch und ist laut Abraham ein ausgereiftes Tool (seit mehr als sechs Jahren im Feld), das mehr als 300 neuronale Netze über vier verschiedene Hardware-Generationen hinweg unterstützt. Über das CDNN-Invite Customer Device API können Entwickler ihre eigenen Engines integrieren
Zwei Prozessorkerne
Auf Basis dieser neuen, heterogenen Architektur bietet Ceva anfänglich zwei verschiedene Prozessorkonfigurationen an: NPM11 und NPM18. NPM11 ist mit einer einzigen NPM-Engine ausgestattet und kommt auf eine Rechenleistung von bis zu 20 TOPS. Der NPM18 verfügt über acht NMP-Engines und kommt auf bis zu 160 TOPS. In beiden Fällen wird die maximale Taktfrequenz mit 1,25 GHz angegeben. Abraham: »Weitere NeuPro-M-Cores werden folgen.«
Außerdem eignet sich NeuPro-M nicht nur für eine Skalierung auf SoC-Ebene, sondern auch auf Chiplet-Ebene, sodass eine Rechenleistung von bis zu 1200 TOPS möglich ist. Abraham abschließend: »Wie leistungsfähig ein einzelner NPM11-Kern ist, zeigt sich bei der Verarbeitung eines neuronalen Faltungsnetzwerks ResNet50. Hier erreicht NPM11 im Vergleich zu NeuPro-S eine um den Faktor 5 höhere Rechenleistung, während die benötigte Speicherbandbreite um den Faktor 6 sinkt, was zu einer außergewöhnlichen Leistungseffizienz von bis zu 24 TOPS pro Watt führt.«