Serviceroboter beispielsweise benötigen eine hochentwickelte KI-Verarbeitung, um die Umgebung zu erkennen. Andererseits ist auch eine algorithmusbasierte Verarbeitung ganz ohne KI erforderlich, um das Verhalten des Roboters zu bestimmen und zu steuern. Aktuelle Embedded-Prozessoren (CPUs) verfügen jedoch nicht über ausreichende Ressourcen, um diese verschiedenen Verarbeitungsarten in Echtzeit durchzuführen. Renesas hat dieses Problem durch die Entwicklung einer heterogenen Architektur gelöst. Hierbei arbeiten der dynamisch rekonfigurierbare Prozessor (DRP), der KI-Beschleuniger (DRP-AI3) und die CPU zusammen.
Wie Bild 1 zeigt, kann der DRP Anwendungen ausführen und dabei die Schaltungskonfiguration der Recheneinheiten auf dem Chip bei jedem Betriebstakt entsprechend dem zu verarbeitenden Inhalt dynamisch schalten. Der DRP verbraucht weniger Strom als eine CPU und kann eine höhere Geschwindigkeit erreichen, da nur die erforderlichen Rechenschaltungen genutzt werden. Im Vergleich zu CPUs, deren Leistung durch häufige externe Speicherzugriffe aufgrund von Cache-Fehlern und anderen Faktoren beeinträchtigt wird, kann der DRP außerdem die erforderlichen Datenpfade in Hardware aufbauen. Dadurch lassen sich Leistungseinbußen minimieren und Schwankungen der Betriebsgeschwindigkeit (Jitter) aufgrund von Speicherzugriffen verringern.
Der DRP verfügt auch über eine dynamisch rekonfigurierbare Funktion, die die Verbindungen der Schaltkreise bei jeder Änderung des Algorithmus verändern kann. Dies ermöglicht eine Verarbeitung mit begrenzten Hardwareressourcen, selbst bei Roboteranwendungen, die eine Verarbeitung mehrerer Algorithmen erfordern.
Der DRP ist besonders effektiv bei der Verarbeitung von Streaming-Daten wie der Bilderkennung, bei der Parallelisierung und Pipelining die Leistung direkt verbessern. Andererseits erfordern Programme, wie die Entscheidungsfindung und Steuerung des Roboterverhaltens, eine präzise Verarbeitung, um auf sich ändernde Bedingungen und Veränderungen in der Umgebung reagieren zu können. Hierfür ist eine Softwareverarbeitung in der CPU möglicherweise besser geeignet als eine Verarbeitung in Hardware wie die des DRP. Es ist wichtig, die Verarbeitungsaufgaben an die richtigen Stellen zu verteilen und koordiniert zu verarbeiten. Dank der heterogenen Architektur von Renesas können DRP und CPU zusammenarbeiten.
Bild 2 gibt einen Überblick über die Architektur der Microprocessing Unit (MPU) und des KI-Beschleunigers (DRP-AI3). Robotikanwendungen nutzen eine hochentwickelte Kombination aus KI-basierter Bilderkennung und nicht KI-basierten Entscheidungs- und Steuerungsalgorithmen. Daher wird eine Konfiguration mit einem DRP für die KI-Verarbeitung (DRP-AI3) und einem DRP für Nicht-KI-Algorithmen den Durchsatz von Robotikanwendungen erheblich steigern.
Der mit dieser Technologie ausgestattete MPU »RZ/V2H« von Renesas verzeichnet bei der Rechenleistung des KI-Beschleunigers ein Maximum von 8 TOPS (Tera Operations per Second). Darüber hinaus kann bei KI-Modellen, die beschnitten (Pruning) wurden, die Anzahl der Operationszyklen im Verhältnis zum Umfang des Prunings reduziert werden. Auf diese Weise lässt sich im Vergleich zu Modellen ohne Pruning eine Rechenleistung der KI-Modelle von maximal 80 TOPS erzielen. Das ist ungefähr das 80-fache der Rechenleistung der bisherigen »RZ/V«-Produkte. Dies stellt eine erhebliche Leistungssteigerung dar, die mit der rasanten Weiterentwicklung von künstlicher Intelligenz ausreichend Schritt halten kann (Bild 3).
Mit der Beschleunigung der KI-Verarbeitung wird die Rechenzeit für die algorithmenbasierte Bildverarbeitung ohne KI, wie z. B. die Pre- und Post-KI-Verarbeitung, zu einem relativen Engpass. Aber: Bei KI-MPUs wird ein Teil des Bildverarbeitungsprogramms auf den DRP verlagert, was die Verarbeitungszeit des Gesamtsystems verbessert (Bild 4).
Die Leistungsevaluierung des KI-Beschleunigers hat gezeigt, dass er bei der Ausführung der wichtigsten KI-Modelle die weltweit beste Energieeffizienz – etwa 10 TOPS pro Watt – auf- weist (Bild 5).
Renesas kann außerdem die gleiche KI-Echtzeitverarbeitung auf einem RZ/V2H-Evaluierungsboard ohne Lüfter bei Temperaturen nachweisen, die vergleichbar mit denen von Konkurrenzprodukten mit Lüftern sind (Bild 6).
SLAM (Simultaneous Localization and Mapping) ist beispielsweise eine typische Roboteranwendung. Die komplexe Konfiguration erfordert mehrere Verarbeitungsarten zur Positionserkennung des Roboters parallel zur Umgebungserkennung durch die KI-Verarbeitung. Der DRP von Renesas ermöglicht dem Roboter einen sofortigen Programmwechsel. Der Parallelbetrieb mit einem KI-Beschleuniger und einer CPU ist nachweislich etwa 17-mal schneller als der CPU-Betrieb allein. Das senkt den Stromverbrauch auf 1/12 des Niveaus, wie dies bei einem reinen CPU-Betrieb der Fall wäre.
Renesas hat mit dem RZ/V2H einen einzigartigen KI-Prozessor entwickelt. Er kombiniert den geringen Strom- verbrauch und die Flexibilität, die von Anwendungen am Endpunkt benötigt werden, mit Verarbeitungsfunktionen für das Pruning von KI-Modellen. Der Prozessor ist damit zehnmal energieeffizienter (10 TOPS/W) als die bisherigen Produkte.
Renesas wird zeitnah weitere Produkte auf den Markt bringen, die mit der stets anspruchsvoller werdenden KI-Entwicklung Schritt halten. Darüber hinaus trägt Renesas dazu bei, Systeme zu entwickeln, die intelligent und in Echtzeit auf Anwendungen am Endpunkt reagieren.
Der Autor
Shingo Kojima ist Senior Principal Engineer of Embedded Processing bei Renesas Electronics.