ISSCC 2020 KI und IoT – zusammen als »AIoT« unschlagbar

Bild 2. »Das AIoT von den Wurzeln bis zu den Blättern befruchten«: Das AIoT umfasst ein breites Spektrum von Technologien, das sich in drei Kategorien einteilen lässt: Multimedia, Computing und Kommunikation.
»Das AIoT von den Wurzeln bis zu den Blättern befruchten«: Das AIoT umfasst ein breites Spektrum von Technologien, das sich in drei Kategorien einteilen lässt: Multimedia, Computing und Kommunikation.

Die Kombination von KI und IoT zum AIoT bietet enorme Potenziale, davon ist Kou-Hung Loh von Mediatek überzeugt. In seiner Keynote auf der ISSCC standen KI für Multimedia, Kommunikationstechnik zur Überbrückung von Edge und Cloud und die Schaltungstechnik dazu im Fokus.

Die International Solid-State-Circuits Conference (ISSCC) gilt seit über 60 Jahren als wichtigste wissenschaftliche Halbleiterkonferenz auf Chip-Ebene. So startete die Plenarsitzung der ISSCC 2020 im Marriott Marquis San Francisco auch in diesem Jahr wieder mit vier angesehenen Keynote-Sprechern. Passend zum Konferenzthema »Integrierte Schaltkreise, die die KI-Ära antreiben« haben die diesjährigen Plenarvorträge wichtige Innovationstrends skizziert, die den Weg nach vorn in die aufkommende Ära der KI ebnen sollen.
Kou-Hung Lawrence Loh, Senior Vice President & Corporate Strategy Officer bei MediaTek, Hsinchu/Taiwan nahm in der zweiten Keynote der ISSCC den Ball »KI« (Künstliche Intelligenz | Artificial Intelligence) von seinem Vorredner Jeff Dean von Google auf und plädierte für eine Kombination mit dem »IoT«. Das Ergebnis ist dann das »AIoT«, wobei bei dieser Abkürzung offensichtlich ein »I« unter den Tisch fällt. »Das AIoT von den Wurzeln bis zu den Blättern befruchten«, war der blumige Titel seines Vortrags.

»Das AIoT von den Wurzeln bis zu den Blättern befruchten«

Loh ist der Ansicht, dass das IoT (Internet der Dinge) in Verbindung mit künstlicher Intelligenz, das »AIoT«, alles auf der Welt bereichert. Der Anwendungsspielraum ist unbegrenzt und reicht von der Grundlagenforschung über Unternehmen, Industrie, Transport, Dienstleistungen und das persönliche tägliche Leben. Die Auswirkungen des AIoT seien weitreichend: Bis 2030 werden bei durchschnittlich 40 angeschlossenen »Dingen« pro Person und 8,6 Milliarden Menschen auf der Welt voraussichtlich ca. 350 Milliarden Geräte in Betrieb sein und 16 Billionen Dollar oder 14 % des globalen BIP erreichen (Bild 1 – alle Bilder in der Bildergalerie).

Das AIoT umfasst ein breites Spektrum von Technologien, das sich in drei Kategorien einteilen lässt: Multimedia, Computing und Kommunikation (Bild 2). Multimedia besteht im Kern aus Sensoren, Mensch-Maschine-Schnittstellen und Aktoren, die zwischen der digitalen und der realen Welt interagieren. Zudem kann Multimedia Mikrofone und Lautsprecher, Kameras und Displays, Geräte zur Überwachung von Lebenszeichen, Roboterachsen und so weiter umfassen. Die gewaltige Datenmenge wird sowohl lokal als auch in der Cloud verarbeitet, was 5G und andere fortschrittliche Kommunikationstechnologien erfordert, um eine hohe Netzwerkkapazität und einen hohen Datendurchsatz bei geringer Latenz zuverlässig zu unterstützen. Die Eingabedaten in die Cloud und die Edge-KI-Einheiten werden analysiert, klassifiziert und ausgewertet, um kognitive Handlungen mit einer Fähigkeit zu synthetisieren, die die menschlichen Fähigkeiten bis 2030 bei weitem übertrifft. Eine Vielzahl von Technologien wie neuartige Gerätekomponenten, neue KI-Plattformen, heterogene Computereinheiten, fortschrittliche drahtlose und drahtgebundene Kommunikation sowie moderne Packaging-Techniken sind erforderlich, um die Stämme wurzeln zu lassen und das reichhaltige Austreiben der Blätter an der Spitze zu unterstützen.
Darüber hinaus ist eine hohe Energieeffizienz zur Verlängerung der Batterielebensdauer ein Muss für Edge-Geräte, was ebenfalls zur Reduzierung des Kohlendioxidausstoßes beiträgt. In den folgenden Abschnitten des Vortrags diskutierte Loh die Pflege und Ausdehnung jedes Stammes von den Wurzeln bis zu den Blättern, wobei die Schwerpunkte auf KI für Multimedia, der Kommunikationstechnik zur Überbrückung von Edge und Cloud und den wesentlichen Technologien auf Schaltungsebene liegen.

Bilder: 18

KI und IoT – zusammen als »AIoT« unschlagbar

Kou-Hung Lawrence Loh, Senior Vice President & Corporate Strategy Officer bei MediaTek, Hsinchu/Taiwan stellte seine Keynote auf der ISSCC 2020 unter den blumigen Titel »Das AIoT von den Wurzeln bis zu den Blättern befruchten«.

Eine Welt mit KI

Die Verfügbarkeit großer Datenmengen in Verbindung mit der Weiterentwicklung von Deep Neural Networks (DNN) und VLSI mit hoher Rechenleistung treibt die Entstehung der modernen KI voran. Eine der am häufigsten eingesetzten Anwendungen ist die computergestützte Bildverarbeitung. Verglichen mit dem herkömmlichen Bildverarbeitungsalgorithmen-Ansatz hat sich die Genauigkeit so stark verbessert, dass ab 2015 ein Mensch einen computergestützten Bildverarbeitungsalgorithmus in der Bildklassifizierung nicht mehr schlagen kann. KI hat sich überall hin ausgebreitet, auch in den hochvolumigen Markt für Konsumgüter wie Smartphones, fortgeschrittene Fahrerassistenzsysteme (ADAS), Sprachassistenten, Überwachungskameras und intelligente medizinische Fernüberwachungssysteme.
Die frühe Entwicklung von DNNs vor 2016 konzentrierte sich hauptsächlich auf die Verbesserung der Genauigkeit ohne Berücksichtigung der Berechnungskomplexität. Während sich die Genauigkeit für Bildklassifikation zwischen 2012 und 2016 um 24 % verbesserte, stieg der Bedarf an Rechenressourcen um mehr als den Faktor 10 an (Bild 3). Ab 2017 wurde der Verbesserung der Berechnungseffizienz in Bezug auf Rechenleistung, Speicherbandbreite und -leistung größere Aufmerksamkeit geschenkt, wobei die Genauigkeit auf einem ähnlichen Niveau wie die menschliche Wahrnehmung gehalten wurde.
Infolgedessen wurde die geräteinterne DNN-Schlussfolgerung möglich, was die Ära der Edge-KI einleitete. Es ist zu erwarten, dass sich die Effizienz von DNNs weiter verbessern wird, so dass anspruchsvollere KI-Anwendungen möglich werden.

KI am Edge

Der anfängliche Erfolg von KI beruhte auf großen Datenmengen und riesigen Rechenressourcen. Es ist natürlich, dass in diesen frühen Generationen cloudbasierte Lösungen bevorzugt wurden, nicht nur für das Training, sondern auch für Schlussfolgerungen (Inferenz). Am Beispiel von VGGNet (2014) wurden für eine Einzelbildklassifikation 15,2 GMACs (15,2 Milliarden Multiplikations- und Akkumulationsdaten) benötigt. Sie dauerte 250 ms bis 1250 ms, wobei 200 ms bis 1200 ms für den Datentransport und 50 ms für die eigentliche Berechnung in der Cloud erforderlich waren. Wenn dasselbe Beispiel zu diesem Zeitpunkt auf einem High-End-Smartphone ausgeführt worden wäre, hätte es ca. 3000 ms gedauert, was 2,5 mal langsamer ist. Im Jahr 2016 verkürzten Verbesserungen der DNN-Modelle und der VLSI-Berechnungsfähigkeit die Lücke, so dass ein High-End-Smartphone eine ähnliche Bildklassifizierung mit höherer Genauigkeit in weniger als 50 ms ohne Verbindung zur Cloud durchführen konnte.  Die daraus resultierende Benutzererfahrung übertraf cloudbasierte Lösungen um mehr als eine Größenordnung. Die 60-fache Verbesserung, von 3000 ms auf 50 ms, war das Ergebnis einer 30-fachen Steigerung der Hardware-Rechenleistung und einer verbesserten Kompaktheit von DNN-Modellen wie Inception ResNet (2016), wodurch die Berechnungskomplexität im Vergleich zu früheren Modellen um 50 % reduziert wurde. Dieser abrupte Fortschritt bewies, dass die lokale Verarbeitung von DNN-Aufgaben (die Nomenklatur der Edge-AI) für auftragskritische Anwendungen in Echtzeit durchführbar ist. Tatsächlich gibt es einen deutlichen und schnellen Anstieg der Edge-KI:
(1) die Notwendigkeit der Verarbeitung und Inferenz in Echtzeit,
(2) das gestiegene Bewusstsein für Datenschutz und Sicherheit, um kritische Daten lokal zu halten,
(3) der Notwendigkeit von Offline-Operationen, wenn nur sporadisch auf das Internet zugegriffen wird und
(4) die Herausforderung der Kommunikationskapazität, die bis 2030 weltweit durch 350 Mrd. AIoT-Geräte beansprucht wird.

Hybride Cloud-Edge-KI

Bislang war das außergewöhnliche Wachstum von Edge-KI-Geräten hauptsächlich in Inferenzmaschinen zu verzeichnen. Der größte Teil des Trainings findet nach wie vor in der Cloud statt. Zum Beispiel benötigt eine Inferenzmaschine mit ResNet50 ca. 3,9 GOPs (GigaOps/s), um ein Bild zu klassifizieren, was bei einem Edge-Gerät mit einer Kapazität von 500 GOPs etwa 10 ms dauert. Im Gegensatz dazu erfordert das Training von ResNet50 für eine Verarbeitung von über 1 Million Bilder 100 epochs (Iterationen). Das entspricht mehr als 2 Exa-OPs, was die Kapazität eines gewöhnlichen Computers bei weitem überschreiten. Selbst wenn der Algorithmus in der Cloud läuft, dauert die Verarbeitung der Daten mit Servern, die mit GPU-Farmen, großen Arbeits- und Massenspeichern ausgestattet sind, mehrere Stunden. Obwohl es aktive Forschungsarbeiten zur Reduzierung der Komplexität von DNN-Trainings gibt, ist es immer noch schwierig, dies auf einem Edge-Gerät durchzuführen. Der bevorzugte Ansatz besteht daher darin, sich bei umfangreichen Berechnungen auf die Cloud zu verlassen und die Schlussfolgerungen dem Edge-Gerät zu überlassen, das in Echtzeit mit der Umgebung interagieren kann und dabei eine starke Privatsphäre und Sicherheit gewährleistet.
Neue Daten, die von Edge-Geräten gesammelt werden, können ebenfalls von der KI anonymisiert werden, wobei die Schlüsselattribute für das Lernen in der Wolke, das Selbstlernen und das Verbundlernen erhalten bleiben. Beispielsweise muss in einem autonomen Fahr-Ökosystem innerhalb einer intelligenten Stadt ein angeschlossenes autonomes Fahrzeug die Daten seiner eigenen Sensoren und die von der Verkehrsinfrastruktur übertragenen Daten in Echtzeit miteinander verschmelzen, um sicherheitskritische KI-Schlussfolgerungen ziehen zu können. Die gesammelten und fusionierten Daten können vorverarbeitet werden, um private Informationen zu entfernen, bevor sie relativ langsam in die Cloud gesendet werden. Der Cloud-Server verwendet die aggregierten Daten dann zur Aktualisierung der Verkehrssteuerung, der HD-Karten und zur Erleichterung der zukünftigen Stadtplanung. Die gesamte hybride KI und die Kommunikations-Subsysteme zwischen Cloud und Edge bilden ein geschlossenes AIoT-Ökosystem als Teil einer intelligenten Stadt.

Edge-KI als System-on-Chip

Das breite Spektrum von KI-Anwendungen stellt unterschiedliche Anforderungen an das Hardware-Design. Im Fall der Bildverarbeitung ist die Berechnung anspruchsvoller als der Speicherzugriff, da die KI-Modelle meist nicht iterativ sind und eine große Datenmenge (Pixel) verarbeiten müssen. Erstere kann bis zu 40 TOPs erreichen, während letzterer rund 15 Gbyte/s erfordert. Für High-End-Sprachanwendungen ist die Rechenanforderung von etwa 30 GOPs zwar 1000 mal niedriger als bei der Bildverarbeitung, aber die sich wiederholenden Operationen von rekursiven neuronalen Netzen (RNN) und Lang-/Kurzzeitspeichernetzwerken (LSTM) erfordern eine höhere Speicherbandbreite von mehr als 20 Gbyte/s. Simulierte Rechenleistung, Datenpräzision und Speicherbandbreite für verschiedene Anwendungsfälle der Computer Vision und Sprach-KI sind in Bild 4 aufgelistet und verglichen. Die Benchmarks reichen von Wahrnehmung/Erkennung, objektbasierter Konstruktion und fortgeschrittenem Kontextverständnis. Es ist zu beobachten, dass die Anforderungen an Rechenleistung und Speicherbandbreite um mehr als 3 bzw. 1 Größenordnungen variieren.
Mit dem Wunsch, dass intelligente Handhelds, wie Smartphones, für die meisten, wenn nicht sogar für alle Anwendungen vielseitig einsetzbar sind, wird es zu einer großen Herausforderung, ein hochmodernes KI-SoC zu entwickeln, das gleichzeitig skalierbar und energieeffizient ist. Über elementare KI-Funktionen wie die Bildklassifizierung hinaus kann man eine »Follow-me Dancing«-Anwendung betrachten, die für den Menschen leicht umsetzbar ist, aber sehr aufwändige gleichzeitige und heterogene KI-Berechnungen erfordert. Ausgehend vom Kamerasensor wird ein Live-Videostream mit 30 Bildern/s erzeugt. Die Bildsignalverarbeitungseinheit (ISP) führt Autofokus, automatische Belichtung und automatischen Weißabgleich  durch und erzeugt zwei Arten von Bildern, von denen eines durch KI für die menschliche Betrachtung und das andere für die interne KI-Wahrnehmung verbessert werden kann. Die KI-Verarbeitungseinheit (APU - AI Processing Unit) arbeitet mit den internen Daten, um Gesichtserkennung, Posenschätzung und 3D-Rekonstruktion durchzuführen. Das Ergebnis wird gleichzeitig verwendet, um den Roboter über Bluetooth zu steuern, und wird über WiFi auf einem Fernseher angezeigt. Eine CPU steuert die gesamte Planung und führt einen Teil der skalaren Berechnungen durch. Alle Operationen werden gleichzeitig von einem einzigen Smartphone in Echtzeit ausgeführt. Im Wesentlichen muss ein Edge-SoC nicht nur mit einer leistungsfähigen Inferenzmaschine, sondern auch mit mehreren anderen Verarbeitungseinheiten ausgestattet sein, um hochkomplexe Anwendungen zu bewältigen.

Die Herausforderungen bei der Entwicklung eines KI-SoCs am Edge lassen sich wie folgt zusammenfassen: (1) Flexibilität und Rekonfigurierbarkeit, um verschiedene neuronale Netze mit unterschiedlichen Anforderungen zu unterstützen; (2) Skalierbarkeit, um ein sehr breites Spektrum an Anforderungen zu erfüllen; (3) Reduzierung der Menge und Entfernung für Datenübertragungen, die in bestimmten Fällen bis zu 100 mal mehr Energie verbrauchen können als die ALU allein; und (4) geringe Leistungsaufnahme in der Größenordnung von insgesamt 2 W bis 3 W, wobei rund 1 W für einen Deep Learning Accelerator (DLA) reserviert sind. Was die Architektur betrifft, so ist es ratsam, zunächst die Stärken und Schwächen der verschiedenen Prozessortypen zu untersuchen, wie in Bild 5 dargestellt. Obwohl eine CPU die beste Flexibilität aufweist, ist sie im Vergleich zu einer GPU, einem DSP oder einer eigens dafür gebauten APU am wenigsten effizient. In Bezug auf die Energieeffizienz trifft das genaue Gegenteil zu - eine APU übertrifft den Rest, aber sie bietet die geringste Flexibilität. Es ist wichtig zu erwähnen, dass KI-Aufgaben nicht nur aus DNN-Operationen, sondern auch aus traditioneller Signalverarbeitung bestehen.
Tatsächlich können bei einigen Bildverarbeitungsanwendungen (Computer Vision) die traditionellen Algorithmen für bis zu 70 % der gesamten Rechenlast verantwortlich sein. Dies führt zu der Architektur eines Multi-Prozessor-System-on-Chip (MPSoC), um gleichzeitiges, heterogenes Rechnen zu unterstützen.
Eine APU dient dem Zweck, dass sie KI-Aufgaben effizient erledigt. Die Blockschaltung zeigt Bild 6. Sie besteht aus Faltungs-Engines, Datenpuffern und Operator-Engines für Operationen in neuronalen Netzen, wie z.B. Pooling und Aktivierung. Eine parallele und skalierbare Rechnerarchitektur mit mehreren APU-Kernen bietet Beschleunigung für häufig verwendete DNN-Operationen. Adaptives Computing wird genutzt, um die Auslastung der ALUs zu erhöhen. Verteilter lokaler Speicher und die Steuerung des Datenflusses ermöglichen die Wiederverwendung von Daten zwischen verschiedenen Faltungsfenstern und neuronalen Netzwerkschichten, wodurch die physische Datenübertragung minimiert wird. Unter APU-Cores und anderen heterogenen Prozessoren werden eng gekoppelte globale Puffer zur gemeinsamen Nutzung von Daten verwendet, so dass der relativ langsame und ineffiziente DRAM-Zugriff reduziert werden kann. Es wird außerdem eine hardwarebasierte Datenkomprimierung eingesetzt, um Rechenressourcen freizusetzen und den Bedarf an Speicherbandbreite zu verringern. Um mit der Sparsamkeit umzugehen, wird die gemeinsame Prozessierung von Hard- und Software entwickelt, um Zero-Skipping zu erreichen. Alle APU-Cores unterstützen verschiedene numerische Darstellungen und eine native asymmetrische Quantisierung, um Leistungsaufnahme und Rechenleistung unter Einhaltung der Zielgenauigkeit auszubalancieren.
Das Scheduling und die Synchronisation werden sowohl von der Software als auch von der Hardware zur Erreichung von Robustheit und optimaler Leistung durchgeführt. Beim Benchmarking mit Inception und MobileNet kann die APU mehr als 6 TOPS/W erreichen, was eine wesentlich höhere Leistungsfähigkeit auf die Energieeffizienz bezogen bedeutet als es bei einer GPU der Fall ist. Folglich kann man auf mehr als 60 % der DRAM-Bandbreitenanforderungen verzichten.

Software als Schweizermesser

Es gibt eine große Vielfalt von AIoT-Anwendungen, die unterschiedliche Algorithmen und neuronale Netzwerkmodelle erfordern. Die am besten geeignete Hardwarekonfiguration kann sich für diese Anwendungsfälle auch drastisch unterscheiden. Es ist daher sehr wichtig, die Hardware- und Software-Algorithmen bereits in der Planungsphase mitzugestalten und zu berücksichtigen, dass der Anwendungsraum nur durch die Vorstellungskraft der Benutzer begrenzt ist. Ein allgemeiner Plattformansatz ist erforderlich, wenn ein Software Development Kit (SDK) gängige Machine-Learning (ML)-Frameworks unterstützen und gleichzeitig die Systemleistung auf der Grundlage des Hardware-Angebots optimieren muss. Damit sich die Entwickler auf KI-Innovationen auf Systemebene und eine schnelle Markteinführung konzentrieren können, sind Anwendungsbibliotheken, Framework-APIs, dynamische Hardware-Anordnung und Toolkits für die Profilerstellung usw. unerlässlich. Bild 7 zeigt eine Beispielplattform, die als »NeuroPilot« von MediaTek vermarktet wird. Die rot markierte API unterstützt gemeinsame Frameworks wie TensorFlow, Caffe, Caffe2, ONNX und MXNet über mehrere Betriebssysteme, einschließlich Android, Linux und RTOS.
Das blau markierte Heterogeneous Runtime-Modul führt plattformbezogene Inferenzoptimierung auf der Grundlage der verfügbaren Rechenressourcen durch. Hardwarekonfiguration und Parallelisierung werden während der Laufzeit dynamisch angeordnet.

Eine Netzwerkreduzierung wie Beschneidung (Pruning), Quantisierung mit Kompensation, Zeroskipping für spärliche Matrizen und Gewichtskompression wird von den Toolkits unterstützt, um optimale Ergebnisse und Energieeffizienz zu erzielen. Die Gesamtplattform ermöglicht es, Optimierungen auf Anwendungsebene so früh wie möglich während der Entwurfsphase des Algorithmus durchzuführen, was bei der Entwicklung komplexer Anwendungen von entscheidender Bedeutung ist.
Neuronale Netze werden heute meist in der Cloud trainiert. Beim Einsatz der Modelle in Edge-Geräten erfordert es in der Regel einen erheblichen technischen Aufwand, um geeignete Netzwerkarchitekturen auszuwählen, die Parameter neu zu trainieren und die Netzwerke entsprechend den verfügbaren Energie- und Hardwarebeschränkungen zu trimmen. Da die Inferenzoptimierung sehr komplex ist, ist es nur natürlich, KI innerhalb der oben genannten Plattform, wie z.B. NeuroPilot, einzusetzen, um jeden Schritt im Prozess zu automatisieren. Unserer Erfahrung nach funktioniert das Reinforcement Learning mit iterativer Verfeinerung zu diesem Zweck gut. Wenn InceptionV3 auf einer CPU ausgeführt wird, dauert es etwa 210 ms. Beim Umstieg auf eine APU kann die Ausführungszeit auf 15 ms (14-fache Beschleunigung) reduziert werden, um die Leistung und die Leistungsaufnahme weiter zu verbessern. Es kann mit einer Gruppe von Domänenexperten rund vier Wochen dauern, um das Netzwerk zu modifizieren und zu optimieren. Wenn mehrere Kriterien erfüllt werden müssen, würde der technische Aufwand explodieren. Durch den Einsatz einer vollautomatischen neuronalen Architektursuche (NAS) dauert es dagegen nur 3 Tage, um ein neues Modell zu generieren, das entweder die Inferenz von 15 ms auf 8 ms bei gleicher Genauigkeit beschleunigt oder die Genauigkeit bei gleicher Ausführungszeit von 78 % auf 82 % erhöht.
In den nächsten Jahren werden weitere Fortschritte in der Verbindungstechnologie für Netzwerk-on-Chip (NoC), HW/SW-Co-Design auf Systemebene mit Skalierbarkeit und Rekonfigurierbarkeit sowie Innovationen auf Geräte- und Schaltungsebene erzielt werden. Eine davon ist das Near-Memory- und In-Memory-Computing (oder Compute-in-Memory, CIM), um die datenzentrierte Leistungsaufnahme weiter zu senken. Ziel ist es, den Engpass in der klassischen Von-Neumann-Computer-zentrierten Architektur zu beseitigen. Es wird erwartet, dass sie eine deutlich höhere Leistung von bis zu 5 bis 100 TOPs/W erreicht, verglichen mit der derzeitigen SRAM-basierten Implementierung von 1 bis 2 TOPs/W. Aus architektonischer Sicht kann CIM-SRAM als eng gekoppelter Speicher (TCM) für Deep-Learning Beschleuniger (DLA) behandelt werden. Obwohl es eine Menge aktiver Forschung zu CIM gegeben hat, könnte der Reifeprozess dieser Technologie noch einige Jahre dauern.