Schwerpunkte

KI-Prozessor

Neuronales Netzwerken mit kleinem Power-Budget

08. September 2020, 12:30 Uhr   |  Joachim Kroll

Neuronales Netzwerken mit kleinem Power-Budget
© xyz+ | Adobe Stock

Das französische Start-up GreenWaves hat einen Beschleuniger für neuronale Netze auf Basis der quelloffenen RISC-V-Architektur entwickelt, von dem die zweite, deutlich optimierte Generation bald bemustert werden soll.

Im letzten Jahr hatte das französische Fabless-Halbleiterunternehmen GreenWaves mit dem GAP8 einen KI-Mikrocontroller vorgestellt, der acht RISC-V-Cores in einer parallelen Anordnung enthält sowie einen weiteren Core, der als klassischer Mikrocontroller die Steuerfunktionen ausübt und von GreenWaves als Fabric-Controller bezeichnet wird. Die acht parallelen Cores sind für die Ausführung neuronaler Netze optimiert. Sie ermöglichen den Betrieb intelligenter Geräte, die Daten aus Bild-, Ton- oder Vibrationssensoren erfassen, analysieren, klassifizieren und daraus Aktionen ableiten. Anwendungen können Bilderkennung, Zählen von Personen und Objekten, Überwachung des Maschinenzustands, Haussicherheit, Spracherkennung, Hausroboter und intelligente Spielzeuge sein.

Mit dem angekündigten GAP9 hat GreenWaves die Prozessorarchitektur nochmals optimiert. Im Mittelpunkt steht dabei die Umstellung vom 55-nm-CMOS-Prozess hin zum 22 nm FD-SOI-Prozess von Global Foundries. Das führt zu einer Verbesserung der Energieeffizienz um den Faktor fünf, gleichzeitig erhöht sich die Rechenleistung um das Dreifache. Auch weitere Verbesserungen des Designs sind hinzugekommen: Der GAP9 hat mehr On-Chip-Speicher, unterstützt Datenkompression, Fließkommaberechnungen und hat als Sicherheitsfunktionen Hardware-Unterstützung für AES128/256-Verschlüsselung sowie eine PUF-Einheit (Physically Unclonable Function) integriert, durch die Geräte eindeutig und sicher identifiziert werden können.

Der neue KI-Mikrocontroller liefert fast 50 Milliarden Operationen pro Sekunde (GOPS) bei 50 mW und kann mit noch geringerer Leistung betrieben werden. Erste Muster des GAP9 sollen noch 2020 verfügbar werden. Die Aufnahme der Serienproduktion ist für 2021 geplant.

Deep-Learning-Beschleuniger auch für Signalverarbeitung

Anstatt mit 175 MHz zu takten, erreicht der neue GAP9 Deep-Learning-Accelerator (DLA) 400 MHz. Der neue, neunte Kern soll als Master die restlichen acht Kerne überwachen, um damit die Steuer-CPU zu entlasten. Er kann aber auch selbst Berechnungen durchführen. Die neun 32-Bit-DLAs, die auf dem quelloffenen RI5CY-Design basieren, können jeweils vier INT8-MACs pro Zyklus für insgesamt 29 GOPS verarbeiten. Die Hardware-Convolution-Engine (HWCE, Faltungs-Einheit) liefert zusätzliche 20 GOPS bei einem Verbrauch von nur wenigen Milliwatt. Während die Faltungs-Engine für neuronale Netze optimiert ist, können die RISC-V-Kerne auch Signalverarbeitung und andere rechenintensive Aufgaben übernehmen.

WEKA Fachmedien
© WEKA Fachmedien

Der GAP9 Application Processor hat zwei getrennte Takt- und Spannungsbereiche für den traditionellen Mikrocontroller-Teil (»Fabric Controller«) und den Deep Learning Accelerator, der aus neun parallelen RISC-V-Kernen und einer Hardware Convolution Engine besteht.

Für GAP9 fügte das Unternehmen dem RI5CY-Design eine Fließkomma-Unterstützung hinzu. Zusätzlich zu den Standardformaten FP32 und FP16 verarbeitet das Design Bfloat16 und ein proprietäres FP8-Format, das der Exponentengröße von FP16 entspricht, aber die Genauigkeit reduziert – ein guter Kompromiss für einige neuronale Netzwerke. Die Cores verarbeiten Fließkomma-MAC-Operationen mit derselben Geschwindigkeit wie ganzzahlige MACs, aber die HWCE bleibt auf Ganzzahlberechnungen begrenzt, wodurch die Spitzenleistung auf 14 Gflop/s für FP16 begrenzt wird. Kunden können den Datentyp wählen, um einen Kompromiss zwischen Speicher und Leistung zu finden.

GAP9 enthält 1,6 MB internen RAM, dreimal mehr als GAP8. Damit größere Netzwerke effizient auf GAP9 laufen können, verfügt der neue DLA über eine Kompressions-Engine, die zusätzlich die Berechnung größerer neuronaler Netzwerkoperationen verbessert. Dazu werden Aktivierungen und Gewichte in spezieller Weise komprimiert, um den Speicherbedarf der Matrizen zu reduzieren.

Der Mikrocontrollerteil des Chips, von GreenWaves als »Fabric Controller« bezeichnet, bleibt weitgehend unverändert. Er hat seine eigene Takt- und Spannungsversorgung. Die Anwendungs-CPU läuft mit den gleichen 250 MHz, um die Software-Portierung zu vereinfachen; sie benötigt bei dieser Geschwindigkeit nur 2,5 mW. Aufgrund des geringen Leckstroms von FD-SOI benötigt der GAP9 nur 1 µA im Tiefschlafmodus. Der Fabric-Controller-Teil umfasst Standardperipherie und eine parallele 10 bit breite Kamera-Schnittstelle. Er wird über bis zu acht SPI-Lanes mit externem Flash-Speicher oder DRAM verbunden und unterstützt die XIP-Fähigkeit (Execute-in-Place) sowie die On-the-Fly-AES-Verschlüsselung für den Flash.

Herausforderung für Arm-Architektur

Die meisten Systeme mit geringem Stromverbrauch betreiben neuronale Netzwerke direkt auf der Haupt-CPU, aber der GAP9 bietet eine wesentlich bessere Leistung. Der STM32H7 beispielsweise ist eine High-End-MCU mit einem 400-MHz-Cortex-M7. Dieser Chip kann MobileNet v1 mit Bildern von 160×160 Pixeln mit 6,2 Bildern pro Sekunde (fps) verarbeiten benötigt dabei 170 mW. Wenn der GAP9 die gleichen 6,2 Bilder pro Sekunde durchrechnet, benötigt er nur 5 mW. Bei Spitzengeschwindigkeit kann er bis zu 84 Bilder pro Sekunde verarbeiten – 14 Mal mehr als der H7 – und verbraucht dabei 50 mW. Diese zusätzliche Leistung kann auch zur Verbesserung der Genauigkeit oder zum gleichzeitigen Betrieb mehrerer Netzwerke, wie z. B. Schlüsselworterkennung (wake word), Bewegungs- und Gesichtserkennung, beitragen.

Für Entwickler, die bereit sind, das Ökosystem von Arm zu verlassen, führt GAP9 neuronale Netzwerke viel effizienter als ein Standardmikrocontroller aus. Das Design ist am effizientesten für kleine Netzwerke, die Audio oder Bilder mit niedriger Auflösung verarbeiten, aber es können auch größere Modelle ausgeführt werden, wenn der Arbeitsspeicher durch externen DRAM erweitert wird. Die CPU stellt keine Geschwindigkeitsrekorde auf, aber die geringe Leistungsaufnahme und die Erschwinglichkeit des Chips eignen sich gut für Wearables und andere batteriebetriebene IoT-Geräte. Die Umstellung auf FD-SOI und andere Design-Änderungen verbessern die Energieeffizienz gegenüber dem ursprünglichen GAP8-Design erheblich. Für das Inferencing im Gerät bietet GreenWaves GAP9 eine überzeugende Lösung mit geringem Stromverbrauch. (jk)

Greenwaves Technologies

beschäftigt etwa 30 Mitarbeiter. Nachdem im vergangenen Jahr sieben Millionen Euro aufgebracht wurden, beträgt die Gesamtfinanzierung einschließlich Zuschüssen und Darlehen nun etwa 17 Millionen Euro. Die GAP-Architektur kombiniert einen RISC-V-Mikrocontroller mit einem Deep-Learning-Beschleuniger. Dieser Deep-Learning-Beschleuniger verfügt über neun RISC-V-Kerne plus eine Hardware-Einheit für Faltungsoperationen (Hardware Convolution Engine), die zusammen bis zu 17,5 GOPS erzeugen. GAP8 hat Mitte 2019 die Produktion erreicht. Er wird für etwa 5 Dollar in Losen von 100.000 Einheiten und 3 Dollar in hohen Stückzahlen verkauft. GAP9 wurde im Dezember 2019 angekündigt.

Auf Facebook teilenAuf Twitter teilenAuf Linkedin teilenVia Mail teilen

Das könnte Sie auch interessieren

NXP beschleunigt ML-Anwendungen durch Glow-Compiler
Syntiant bringt KI in Edge-Geräte
Äußerst genügsamer analoger KI-Chip

Verwandte Artikel

WEKA FACHMEDIEN GmbH, GreenWaves Technologies