MPSoC-Bausteine Adaptive KI-Beschleunigung

Künstliche Intelligenz in der Zukunft

Für KI-Applikationen werden leistungsfähige Hardware-Beschleuniger benötigt. Da die KI-Technik stark in Bewegung ist und immer wieder neue neuronale Netzwerktypen auftauchen, ist eine Hardware gefragt, die sich dem Tand der Technik anpassen kann.

Applikationen wie Smart Security, Robotik und autonomes Fahren stützen sich zunehmend auf künstliche Intelligenz (KI), um die Performance zu verbessern und neue Nutzer-Erfahrungen zu liefern. Inferenzmaschinen auf traditionellen Computerplattformen sind oft nicht in der Lage, die Anforderungen der realen Welt und deren immer schärfere Vorgaben für Stromaufnahme, Latenz und physische Abmessungen zu erfüllen. Ihr Nachteil ist die geforderte Präzision der Inferenz bei beschränkten Busbreiten und Speicher. Diese lassen sich nicht in einfacher Weise adaptieren, um ein Optimum an bester Geschwindigkeit, Effizienz und Chipfläche zu liefern. Also ist eine adaptierbare Computerplattform gefordert, die den Anforderungen an eingebettete KI-Anwendungen mit State of the Art CNNs (Convolutional Neural Networks) gerecht wird.

Blickt man weiter in die Zukunft, ist auch die Flexibilität zur Anpassung an den raschen Fortschritt der neuronalen Netzwerke von großer Bedeutung. CNNs, die derzeit populär sind, werden immer schneller von neuen Topologien abgelöst. Traditionelle SoCs werden zwangsläufig im Hinblick auf die heute eingesetzten neuronalen Netzwerke entworfen. Doch sie zielen auf kommende Anwendungen, die meist erst drei Jahre nach dem Beginn ihrer Entwicklung aktuell werden. Neue Typen von neuronalen Netzwerken wie RNNs (Recurrent Neural Networks) oder Capsule Networks dürften die traditionellen SoCs bald als ineffizient und nicht mehr wettbewerbsfähig für die geforderte Performance erscheinen lassen.

Wenn Embedded-KI die Erwartungen der Endanwender erfüllen und – vielleicht noch wichtiger – auch mit deren zukünftigen Anforderungen Schritt halten soll, wird also eine flexiblere und adaptive Compute-Plattform gebraucht. Als mögliche Lösung bietet sich der Einsatz von nutzer-konfigurierbaren MPSoC-Bausteinen (Multi-processor System-on-Chip). MPSoCs integrieren den Haupt-Applikationsprozessor in ihrer skalierbaren programmierbaren Logik. Sie realisieren damit eine konfigurierbare Speicherarchitektur und Signal¬verarbeitung, die für die Inferenz mit variabler Präzision geeignet ist.

Adaptierbare Präzision

In konventionellen SoCs sind die Eigenschaften, die die Performance definieren, wie die Speicherstruktur und die Rechenpräzision, in ihrer Größe festgelegt. Das durch die Core-CPU definierte Minimum beträgt mindestens acht Bit, obwohl die optimale Präzision für einen vorliegenden Algorithmus auch geringer sein kann. Ein MPSoC hingegen erlaubt die Optimierung der programmierbaren Logik bis herab auf die Transistorebene. Es bietet also die Freiheit, die Inferenzpräzision, falls erforderlich, bis herab auf 1 bit zu variieren. Ein solcher Baustein enthält außerdem Tausende von konfigurierbaren DSP-Slices, um die MAC-Berechnungen (Multiply Accumulate) effizient auszuführen.

Die Freiheit zur Optimierung der Inferenzpräzision liefert also Recheneffizienz, die einer quadratischen Kennlinie entspricht: Ein Single-Bit-Befehl, der in einem 1-bit-Kern ausgeführt wird, beansprucht nur 1/64 des Logikumfangs, wie er für die Ausführung derselben Operation in einem 8-bit-Kern benötigt wird. Darüber hinaus erlaubt das MPSoC die unterschiedliche Optimierung der Inferenzpräzision für jeden Layer des neuronalen Netzwerks, um die geforderte Performance mit der maximal möglichen Effizienz zu erzielen.

On-Chip-Speicher ist schneller

Neben der Verbesserung der Recheneffizienz durch variable Inferenzpräzision kann die Konfiguration der Bandbreite und Struktur von programmierbaren On-Chip-Speichern die Performance und Effizienz eingebetteter KI-Schaltungen weiter verbessern. Ein kundenspezifisch ausgelegtes MPSoC kann mehr als den vierfachen Speicherumfang des On-Chip-Speichers haben und mehr als das Sechsfache der Speicher-Interface-Bandbreite einer konventionellen Computerplattform, die mit derselben Inferenzmaschine läuft.

Die Konfigurierbarkeit des Speichers ermöglicht es dem Anwender, Engpässe zu verringern und die Chip-Ressourcen optimal zu nutzen. Außerdem integriert ein typisches Subsystem nur einen begrenzten Umfang an On-Chip Cache. Es muss daher häufig mit externen Speichern interagieren. Das erhöht die Latenz und den Leistungsverbrauch. In einem MPSoC können die meisten Speichervorgänge on-Chip erfolgen. Das geht nicht nur schneller, sondern es spart auch mehr als 99 % des Leistungsverbrauchs von Interaktionen mit externen Speichern.

 

Wertvolle Chip-Fläche

Auch der Flächenbedarf einer Lösung gewinnt zunehmend an Bedeutung, speziell für mobile KI-Anwendungen in Drohnen, Robotern und autonomen Fahrzeugen. Die in der FPGA-Schaltung eines MPSoC implementierte Inferenzmaschine beansprucht oft nur ein Achtel der Chipfläche im Vergleich zu einem konventionellen SoC. Das ermöglicht dem Entwickler die Realisierung von leistungsfähigeren Engines in wesentlich kleineren Bausteinen.

Außerdem bieten die MPSoC-Bausteinfamilien oft vielfältige Wahlmöglichkeiten zur Implementierung der Inferenzmaschine in der jeweils günstigsten Option im Hinblick auf Leistungsverbrauch und Effizienz sowie die geforderte System-Performance. Auch für Automobilanwendungen sind qualifizierte Komponenten mit Hardware-mäßiger funktionaler Sicherheit verfügbar. Sie sind entsprechend den Spezifikationen des Industriestandards ISO 26262 ASIL-C zertifiziert. Das ist für KI-Applikationen in autonomen Fahrzeugen sehr wichtig. Ein Beispiel ist die Automotive XA Zynq UltraScale+-Familie von Xilinx. Sie enthält ein Prozessorsystem auf der Basis eines 64-bit Quad-Core ARM Cortex-A53 und eines Dual-Core ARM Cortex-R5, neben der programmierbaren Logik. Das ermöglicht die Konsolidierung der Steuerverarbeitung, der Machine-Learning-Algorithmen und der Sicherheitsschaltungen mit Fehlertoleranz in nur einem Chip.

Man kann heute eine eingebettete Inferenzmaschine in einem MPSoC-Baustein implementieren, der nur 2 W verbraucht. Das ist ein passendes Power-Budget für Applikationen wie die mobile Robotik oder das autonome Fahren. Mit konventionellen Computerplattformen kann man derzeit keine Echtzeit-Applikationen von CNNs mit vergleichbarem Leistungsverbrauch realisieren. Und es ist unwahrscheinlich, dass sie in Zukunft den stringenten Anforderungen an schnelleres Ansprechverhalten und höhere Funktionalität, sowie den immer schärferen Vorgaben im Leistungsverbrauch gewachsen sind. Plattformen auf der Basis von programmierbaren MPSoCs bieten bessere Rechenperformance, höhere Effizienz sowie Vorteile in Größe und Gewicht auch bei einem Leistungsverbrauch oberhalb 15 W.

Die Vorteile einer solchen konfigurierbaren, mehrfach parallelen Rechner-Architektur wären allerdings nur von akademischer Bedeutung, wenn die Entwickler nicht in der Lage wären, sie in ihren Projekten einfach umzusetzen. Der Erfolg hängt von geeigneten Tools ab, die den Entwickler bei der Optimierung seiner geplanten Inferenzmaschine und deren Implementierung unterstützen. Mit dem Blick auf diese Anforderungen weitet Xilinx sein Ökosystem an Entwicklungs-Tools und Machine-Learning-Software-Stacks kontinuierlich aus und kooperiert mit spezialisierten Partnern zur Vereinfachung und Beschleunigung der Implementierung von Applikationen wie Computer Vision und Videoüberwachung.

Flexibel für die Zukunft

Der Vorteil der Konfigurierbarkeit von SoCs zur Erstellung einer optimalen Plattform für die vorgesehene Applikation gibt dem KI-Entwickler auch die Flexibilität, mit der raschen Evolution der neuronalen Netzwerkarchitekturen Schritt zu halten. Das Bestreben der Industrie zum möglichst schnellen Übergang auf neue Typen neuronaler Netzwerke stellt für den Plattformentwickler ein signifikantes Risiko dar. Das rekonfigurierbare MPSoC ermöglicht ihm nun eine flexible Reaktion auf die Änderungen in den Architekturen der neuronalen Netzwerke. Er nutzt dabei die Rekonfigurierung als Strategie für die effizienteste Verarbeitung im jeweils aktuellen State of the Art.

Künstliche Intelligenz findet sich schon heute in zunehmendem Maße eingebettet in Industriesteuerungen, medizinischen Geräten, Sicherheitssystemen, der Robotik und autonomen Fahrzeugen. Adaptive Beschleunigung unter Nutzung der programmierbaren Logik von MPSoC-Bausteinen ist der Schlüssel zur Realisierung einer reaktionsschnellen und fortschrittlichen Funktionalität, die als Sicherung der Wettbewerbsfähigkeit gefordert ist.

 

Der Autor

Dale Hitt

hat an der University of Illinois at Urbana-Champaign ein Studium des Computer-Ingenieurwesens abgeschlossen und war während seiner Laufbahn in verschiedenen Positionen im Marketing und Business Development tätig. Er öffnete Vertriebskanäle, entwarf Marketingpläne und organisierte Produkteinführungen, u.a. bei Cadence, Nvidia, Intel und Motorola. Jetzt ist er Director Strategic Market Development AI and Vision bei Xilinx und bringt Projekte des Maschinellen Lernens, der Sensorfusion, KI und Computer Vision auf den Weg.