KI ist mehr als ein »Hype-Thema«. Diese Technologie ist nicht nur ein »Nice-to-have«, sondern in vielen Bereichen immer mehr ein »Must-have«. Damit Entwickler diese Technologie auch im Edge nutzen können, hat Renesas Electronics die RZ/V2H-Prozessoren entwickelt, die auf Robotik oiptimiert sind.
Mit dem Rückgang der erwerbsfähigen Bevölkerung aufgrund sinkender Geburtenraten und eines wachsenden Anteils älterer Menschen werden hoch entwickelte Verfahren der künstlichen Intelligenz (KI) unabdingbar. Dazu gehören die Umgebungserkennung, das Treffen von Entscheidungen und die Bewegungssteuerung in verschiedenen Anwendungsbereichen, wie z. B. in Fabriken, in der Logistik, in der medizinischen Versorgung, bei Servicerobotern für den Einsatz in Städten und bei Sicherheitskameras. Die Systeme müssen anspruchsvolle künstliche Intelligenz (KI) in Echtzeit in verschiedenen Programmarten verarbeiten können. Insbesondere muss das System in ein Endgerät eingebettet sein, um eine schnelle Reaktion auf die sich ständig verändernde Umgebung zu ermöglichen. Die KI-Chips sollten außerdem eine geringe Leistungsaufnahme aufweisen, sowie anspruchsvolle KI in Embedded-Anwendungen bei geringstmöglicher Wärmeentwicklung verarbeiten können.
Um diesen Marktanforderungen gerecht zu werden, hat Renesas den DRP-AI3 (Dynamically Reconfigurable Processor) als KI-Beschleuniger für die Hochgeschwindigkeits-KI-Inferenzverarbeitung entwickelt. Er zeichnet sich durch eine geringe Leistungsaufnahme und die erforderliche Flexibilität für Edge-Anwendungen aus. Der DRP-AI3 ist eine Weiterentwicklung des DRP-AI, der wiederum auf einer über viele Jahre von Renesas weiterentwickelten Prozessortechnologie basiert.
Mehrere vom DRP-AI Translator erzeugte ausführbare Dateien können im externen Speicher abgelegt werden. Dadurch ist es möglich, als System dynamisch zwischen mehreren KI-Modellen zu wechseln. Darüber hinaus kann der DRP-AI Translator kontinuierlich aktualisiert werden, um neu entwickelte KI-Modelle ohne Hardwareänderungen zu unterstützen.
Der DRP-AI besteht aus einer AI-MAC (Hardware optimiert für MAC-Operationen – Multiply-Accumulate), einem DRP (dynamisch rekonfigurierbarer Prozessor) und einem DMAC (Direct Memory Access Controller). Der AI-MAC in Kombination mit dem DRP kann Operationen in Faltungsschichten und kombinierten Schichten effizient verarbeiten, indem der Datenfluss mit internen Schaltern optimiert wird. Der DRP kann komplexe Verarbeitungsprozesse – wie das Vorverarbeiten von Bilddaten und AI-Modell-Pooling-Schichten – flexibel und schnell verarbeiten, indem er die Hardware-Konfiguration dynamisch ändert. Der DRP-AI Translator ordnet wiederum jeden Prozess des KI-Modells automatisch dem AI-MAC und dem DRP zu, sodass der Benutzer den DRP-AI einfach nutzen kann, ohne sich der Hardware bewusst zu sein.
Die Idee hinter DRP-AI: Um die Leistungsaufnahme möglichst gering zu halten, ist es von Vorteil, dedizierte Hardware zu verwenden, die auf eine bestimmte KI-Verarbeitung spezialisiert ist. Das Problem bei diesem Ansatz besteht aber im Fall von KI darin, dass diese Hardware relativ schnell veraltet sein kann, da sich die KI-Modelle mit enormer Geschwindigkeit weiterentwickeln. Also muss der KI-Beschleuniger nicht nur stromsparend, sondern auch flexibel sein, damit er auch neu entwickelte KI-Modelle verarbeiten kann. Und genau das kann der DRP-AI: Er ist ein KI-Beschleuniger, der Inferenzierungsaufgaben in hoher Geschwindigkeit und mit einer hohen Leistungseffizienz abarbeiten sowie gleichzeitig auch zukünftige KI-Modelle unterstützen kann.
Der DRP-AI zeichnet sich durch drei wichtige Eigenschaften aus:
➔ Dedizierter KI-Beschleuniger für das Inferenzieren
➔ Hohe Leistungseffizienz dank der Kombination von Hardware (DRP-AI) und Software (DRP Translator)
➔ KI-Modellerweiterungen werden dank kontinuierlicher Updates des DRP-AI Translators unterstützt
Der DRP-AI Translator ist ein Tool, das speziell für das KI-Inferenzieren entwickelt wurde. Durch den Einsatz der einzigartigen dynamisch rekonfigurierbaren Technologie von Renesas erreicht er eine hohe Flexibilität, eine hohe Verarbeitungsgeschwindigkeit und eine hohe Energieeffizienz. Der DRP-AI Translator ermöglicht es Anwendern, KI-Modelle auf einfache Weise zu implementieren, die dahingehend optimiert wurden, dass sie das Maximum an Leistung aus dieser flexiblen Hardware herausholen können. Mehrere vom DRP-AI Translator erzeugte ausführbare Dateien können im externen Speicher abgelegt werden. Dadurch ist es möglich, als System dynamisch zwischen mehreren KI-Modellen zu wechseln. Darüber hinaus kann der DRP-AI Translator kontinuierlich aktualisiert werden, um neu entwickelte KI-Modelle ohne Hardwareänderungen zu unterstützen.
Der DRP-AI besteht aus einer AI-MAC (Hardware optimiert für MAC-Operationen – Multiply-Accumulate), einem DRP (dynamisch rekonfigurierbarer Prozessor) und einem DMAC (Direct Memory Access Controller). Der AI-MAC in Kombination mit dem DRP kann Operationen in Faltungsschichten und kombinierten Schichten effizient verarbeiten, indem der Datenfluss mit internen Schaltern optimiert wird. Der DRP kann komplexe Verarbeitungsprozesse – wie das Vorverarbeiten von Bilddaten und AI-Modell-Pooling-Schichten – flexibel und schnell verarbeiten, indem er die Hardware-Konfiguration dynamisch ändert. Der DRP-AI Translator ordnet wiederum jeden Prozess des KI-Modells automatisch dem AI-MAC und dem DRP zu, sodass der Benutzer den DRP-AI einfach nutzen kann, ohne sich der Hardware bewusst zu sein.
Der DRP-AI3 ist die nächste Generation des DRP-AI und erreicht eine etwa 10-mal höhere Energieeffizienz als die vorherige Generation. Der DRP-AI3 kann auf weitere Entwicklungen in der KI reagieren und eignet sich für die anspruchsvollen Anforderungen in Anwendungen wie Robotern. Im Folgenden werden die für den DRP-AI3 entwickelten Schlüsseltechnologien vorgestellt und es wird gezeigt, wie der DRP-AI3 die Probleme der Wärmeerzeugung löst, eine hohe Echtzeit- Verarbeitungsgeschwindigkeit ermöglicht und eine höhere Leistung bei geringerem Stromverbrauch für mit KI ausgestatteten Produkte erzielt.
Eine Technologie zur Optimierung der KI-Verarbeitungseffizienz ist das Pruning. Dabei werden Berechnungen weggelassen, die die Erkennungsgenauigkeit nicht wesentlich beeinflussen. Problematisch dabei ist, dass diese »überflüssigen« Berechnungen in KI-Modellen vollkommen zufällig verteilt sind und das wiederum passt nicht gut zur bislang verwendeten Hardware für KI-Anwendungen. Denn KI-Hardware basiert typischerweise auf einer SIMD-Architektur (Single Instruction, Multiple Data), die eine große Anzahl von Operationen (Summe von Produkten) gleichzeitig ausführen kann, um effizient große Matrix-Operationen (Summen von Produkten) der neuronalen Netze durchzuführen. Aufgrund der zufälligen Verteilung der Gewichte, die keinen Einfluss auf die Erkennungsgenauigkeit haben, werden die Berechnungen für diese Gewichte also trotzdem zusammen mit den Nicht-Null-Gewichten durchgeführt, sodass die Anzahl der Berechnungen durch das Pruning nicht reduziert wird. Hinzu kommt außerdem, dass die Pruning-Rate typischerweise viel niedriger ausfällt, als sie theoretisch möglich wäre.
Um diese Probleme zu lösen, hat Renesas seinen DRP-AI3 für Pruning optimiert. Dafür hat Renesas die Beziehung zwischen Pruning-Methode und Erkennungsgenauigkeit für typische KI-Modelle für die Bilderkennung (CNN-Modelle) analysiert und damit eine Hardware-Struktur eines KI-Beschleunigers identifiziert, mit der sowohl eine hohe Erkennungsgenauigkeit als auch eine effiziente Pruning-Rate erreicht werden kann. Dieser Ansatz wurde auf das Design des DRP-AI3 angewendet. Darüber hinaus entwickelte das Unternehmen eine Software, um die Gewichtungen der KI-Modelle zu reduzieren, die für den DRP-AI3 optimiert sind. Diese Software wandelt die zufällige Pruning-Modellkonfiguration in hocheffiziente parallele Berechnungen um, was zu einer schnelleren KI-Verarbeitung führt.
Insbesondere die hochflexible Pruning-Unterstützungstechnologie von Renesas (flexible N:M Pruning-Technologie) kann die Anzahl der Operationszyklen als Reaktion auf Änderungen der lokalen Pruning-Rate in KI-Modellen dynamisch anpassen. Dies ermöglicht eine Feinsteuerung der Pruning-Rate je nach Leistungsaufnahme, Betriebsgeschwindigkeit und Erkennungsgenauigkeit, wie sie die Anwender jeweils benötigen. Mit diesem Ansatz kann die Anzahl der Verarbeitungszyklen für KI-Modelle um mindestens 1/16 und die Leistungsaufnahme um mindestens 1/8 reduziert werden.