Schwerpunkte

Welche Hardware ist die beste für KI?

Von unter 1 MOPS bis hin zu 1000 TOPS

12. Oktober 2020, 16:00 Uhr   |  Iris Stroh


Fortsetzung des Artikels von Teil 1 .

Mindestverarbeitungsleistung von 30 fps

Und Echtzeit heißt in diesem Fall eine Mindestverarbeitungsleistung von 30 fps.
Ähnliches ist auch von Claudio Valesani, EMEA Region Vice President Central & UK Sales Unit bei STMicroelectronics, zu hören. Objektklassifizierung, Befehlserkennung, einfache Objekterkennung und einfache Gesichtserkennung kommen seiner Meinung nach auf 100 MOPS bis zu einige GOPS, was normalerweise mit High-Performance-MCUs (z.B. STM32L7) oder MPUs (z.B. STM32MP) abgedeckt werden kann. Geht es um Gestenerkennung, Verarbeitung natürlicher Sprache, Objekterkennung und -verfolgung, Videoklassifizierung, also Anwendungen mittlerer Komplexität, sind seiner Aussage nach Rechenleistungen zwischen 100 GOPS und wenigen TOPS notwendig, »was typischerweise Mikrocontroller und Mikroprozessoren mit Hardware-Beschleunigern erforderlich macht«, so Valesani. Im High-End-Bereich wiederum, also wenn es um Anwendungen wie Erkennung, Klassifizierung und Verfolgung mehrerer Objekte, Verarbeitung natürlicher Sprache, AR/VR und autonomes Fahren geht, glaubt Valesani, dass hier wahrscheinlich Anwendungsprozessoren zum Einsatz kommen müssen.

Verkest._Diederik
© Imec

Diederik Verkest, Imec: »Bei Edge-Geräten mit begrenztem Energiebudget sind die derzeitigen Inferenzierungs-ICs nicht energieeffizient genug, um eine ausreichend lange Batterielaufzeit zu ermöglichen.«

MCU/MPU/FPGA

Weil viele Hardware-Hersteller versuchen, sich beim Thema KI im Edge zu positionieren, folgt hier erst einmal ein von Furtner stammender allgemeiner Überblick über die verfügbaren Ansätze zur beschleunigten Ausführung neuronaler Netze, mit den jeweiligen Vor- und Nachteilen:

  • Vektor-Erweiterungen für CPUs (z.B. ARM Helium) – effizienter in Hinblick auf Leistungsverbrauch und Performance gegenüber einer einfachen CPU und das bei moderaten Kosten.
  • Vektor-Signalprozessoren – leistungsstärker als die vorherige Variante dank breiterer Vektoren und die parallele Ausführung mehrerer Befehle in einem Takt. Das Ganze kommt zu erhöhten Kosten, lässt sich aber flexibel einsetzen, auch für konventionelle digitale Signalverarbeitung.
  • Multiprozessor-Arrays – sie machen eine hohe Parallelität möglich, benötigen aber viel Fläche und Energie.

Dedizierte Neural Processing Units (NPU) – sie zeichnen sich durch die besten Werte hinsichtlich TOPS/W und TOPS/mm2 aus, sind aber spezialisiert auf die Ausführung neuronaler Netze mit reduzierten Datentypen (z.B. int8).

FPGA-basierte NPUs – die Hardware-Architektur kann für die Ausführung jedes einzelnen NN-Layers optimiert und rekonfiguriert werden. Das gibt größtmögliche Flexibilität in der Unterstützung von NN-Architekturen und Datentypen. Diese Ansätze sind aber im Vergleich zu dedizierten NPUS teurer und verbrauchen mehr Energie.

Jeder Ansatz hat seine Vor- und Nachteile

Fragt man verschiedene Hersteller, welche Architektur sich für KI im Edge am besten eignet, fällt die Antwort sehr unterschiedlich aus. Terrill beispielsweise ist überzeugt, dass MCUs/MPUs/FPGAs schon allein deshalb Probleme haben, weil sie nicht für KI oder Inferenzieren entwickelt wurden, sondern für Datenverarbeitungs- und Steuerungsaufgaben. GPUs gehörten auch auf die Liste, denn auch wenn sie beim Inferenzieren besser abschneiden, sind sie noch nicht dafür optimiert entwickelt worden. Er ist überzeugt, dass für das Inferenzieren eine Rechnerarchitektur notwendig ist, die speziell dafür entwickelt wurde und die sich durch hohe Energieeffizienz und vollständige Programmierbarkeit auszeichnet, um sich an wechselnde Anforderungen anzupassen.

Terrills Urteil: »Wird das Inferenzieren im Edge mit bestehenden Architekturen durchgeführt, dann ist das Ergebnis unterdurchschnittlich und es wird nicht das volle Potenzial erreicht. Inferenzieren erfordert einen neuen Berechnungsansatz, und wir glauben, dass unsere Graph-Streaming-Prozessoren aus vielen Gründen die richtige Architektur sind. Wir haben erfolgreich bestehende Lösungen im Bereich des Edge-Inferenzierens ersetzt, und zwar gerade wegen unserer inhärenten architektonischen Vorteile.«

Seite 2 von 3

1. Von unter 1 MOPS bis hin zu 1000 TOPS
2. Mindestverarbeitungsleistung von 30 fps
3. FPGAs

Auf Facebook teilenAuf Twitter teilenAuf Linkedin teilenVia Mail teilen

Das könnte Sie auch interessieren

NXP beschleunigt ML-Anwendungen durch Glow-Compiler
Syntiant bringt KI in Edge-Geräte
Wie lässt sich mit KI Geld verdienen?
Gesetzliche Regeln für künstliche Intelligenz gefordert
KI wird allgegenwärtig
KI viel seltener genutzt als gedacht
Robotik und KI erobern die Inspektion
Neuronale-Netzwerk-Beschleuniger
KI trainieren ohne den Datenschutz zu verletzen

Verwandte Artikel

INFINEON Technologies AG Neubiberg, IMEC vzw, NXP Semiconductors Germany, Renesas Electronics Europe GmbH, STMicroelectronics GmbH, LATTICE Semiconductor GmbH, XILINX GmbH, Molex Deutschland GmbH