Cadence Design Systems Bis Hunderte von TMACs sind möglich

Skalierbarkeit

Der Entwickler kann zwischen verschiedenen Array-Größen wählen: 256 MACs, 1 kMACs und 4 kMACs. Sind 15 Prozent der Gewichtungen 0 und 50 Prozent der Aktivierungen, ergibt sich eine effektive Rechenleistung von 0,5, 2 bzw. 8 TMACs. Wird das trainierte Netz auch noch optimiert (Network-Pruning), sprich: Gewichte und Neuronen werden nach Abschluss des Trainings ausgedünnt, und ist der Anteil an Gewichten und Aktivierungen mit dem Wert 0 höher (35 und 60 Prozent) lassen sich sogar noch höhere Rechenleistungen erzielen: »In solch einem Fall kommt der Tensilica-DNA-Prozessor auf 12 TMACs«, so Louis weiter. Die Skalierbarkeit geht aber noch weiter, denn es können natürlich auch mehrere Prozessoren auf einem Chip sitzen oder sogar mehrere Chips mit mehreren Prozessoren zu einem System zusammengefügt werden. »Somit können mit dem neuen Prozessor Rechenleistungen von mehreren 100 TMACs erreichen«, erklärt Louis.

Performance getestet

Der Tensilica-DNA-100-Prozessor mit 4 TMACs kann bei 1 GHz 2550 fps in einem ResNet50-CNN bearbeiten. Diese hohe Rechenleistung wird unter der Annahme erreicht, dass 35 Prozent der Gewichte und 60 Prozent der Aktivierungen 0 sind und das Netzwerk mithilfe von Network-Pruning optimiert wurde. Konkurrierende Lösungen mit 4 TMACs-Arrays kommen maximal auf 538 fps, schlechtere Varianten sogar nur auf 398 fps. Louis: »Wir sind also bis um einen Faktor von 4,7 schneller.« Und auf Basis eines 16-nm-Prozesses kommt der Tensilica-DNA-Prozessor auf 3,4 TMACs/W, die nächste Konkurrenz liegt lediglich bei 1,5 TMACs/W.

KI-Software-Plattform

Um die Entwicklung zu vereinfachen, steht den Entwicklern der Tensilica Neural Network Compiler zur Verfügung, mit dem neuronale Netze, die mit den Frameworks Caffe, TensorFlow, TensorFlow Lite etc. erzeugt wurden, auf den Prozessor mappen. Es werden alle Optimierungen hinsichtlich der oben erwähnten „Sparsamkeit“ automatisch durchführt und schlussendlich der Code für den Prozessor erzeugt. Neu ist, dass jetzt auch die Android Neural Network App (Android Neural Network API, Android Neural Network Runtime und Android Neural Network HAL) unterstützt wird, die mithilfe von Tensilica IP Neural Network Driver den Code für den Tensilica-DANN-Prozessor erzeugt.

Mike Demler, Senior Analyst bei der Linley Group, kommentiert: »Die Anwendungen für AI-Prozessoren nehmen schnell zu, aber die Ausführung der neusten neuronalen Netzmodelle kann das verfügbare Leistungsbudget stark beanspruchen. Die Anforderungen bei integrierten AI-Fähigkeiten reichen von kleinen, batteriebetriebenen IoT-Sensoren bis hin zu selbstfahrenden Autos und erfordern somit effizientere Architekturen. Die innovative Sparse-Compute-Engine im neuen Tensilica-DNA-100-Prozessor von Cadence adressiert diese Einschränkungen und ermöglicht eine hohe Performance für jedes Leistungsbudget.«

Der DNA-100-Prozessor ist ab Dezember 2018 für ausgewählte Kunden erhältlich. Die allgemeine Verfügbarkeit ist für das erste Quartal 2019 geplant.