Cadence Design Systems Bis Hunderte von TMACs sind möglich

Blockdiagramm des Tensilica-DNA-100-Prozessors

Der neue „Tensilica DNA 100“-Prozessor von Cadence Design Systems ist ein skalierbarer Prozessor, der dank spezieller Hardware-Engines und einem eng gekoppelten Tensilica-DSP Inferenz-Anwendungen im Edge durchführen kann.

Lazaar Louis, Senior Director für Product Management, Marketing and Business Development bei Cadence, ist überzeugt, dass der neue IP-Core industrieweit führend hinsichtlich Rechenleistung und Energieeffizienz ist. Mit dem IP-Core ließen sich ICs realisieren, die in Anwendungen wie autonomes Fahren, ADAS, Robotik, Drohnen, Surveillance, AR/VR, Smart Home und IoT-Produkte zum Einsatz kommen.

»Die Mehrheißt der KI-Inferenzen werden in der Cloud berechnet, aber es gibt auch gute Gründe, solche Applikationen im Edge durchführen zu wollen.« Aus Louis‘ Sicht sprechen drei wichtige Punkte dafür, KI auch im Endgerät verfügbar zu machen:

- Geringe Latenzzeiten – geht es beispielsweise um Sprachassistenten, muss eine Latenzzeit von unter 200 ms eingehalten werden, damit der Dialog mit dem Gerät noch natürlich wirkt. Auch in der Automobilindustrie ist eine geringe Latenzzeit ganz entscheidend, denn das Fahrzeug kann nicht erst seine Daten in die Cloud schicken, um dann von dort die Entscheidung zu erhalten, dass das erkannte Objekt eine Person ist, um dann eine Vollbremsung einzuleiten.

- Nicht überall gibt es eine gute Anbindung an die Cloud – auch hier kann das eben genannte Automotive-Beispiel dienen, denn auch wenn keine Verbindung zur Cloud besteht, müssen Entscheidungen getroffen werden. Louis: »Inspektions-Dronen für Windturbinen und Stromleitungen arbeiten oft in ländlichen Umgebungen, in denen es keine gute Anbindung an die Cloud gibt.«

- Privatsphäre – Konsumenten möchten nun mal, dass ihre Daten vertraulich behandelt werden, das heißt per Definition, dass nicht alle Daten in die Cloud geschickt werden sollen.

Wie oben bereits beschrieben, adressiert Cadence mit dem neuen Prozessor-IP eine breite Palette von Anwendungen, die auch ganz unterschiedliche Ansprüche an die Rechenleistung stellen. Geht es um IoT-Produkte, reicht typischerweise eine Rechenleistung von weniger als 0,5 TMACs, in Smart­phones sind schon bis zu 2 TMACs erforderlich, für AR/VR-Anwendungen sind bis zu 4 TMACs notwendig, und reden wir vom autonomen Fahren, sind bis zu Hunderte von TMACs gefragt.

All diese Anwendungsbereiche mit den unterschiedlich hohen Rechenleistungen adressiert Cadence mit dem Tensilica-DNA-100-Prozessor. Wie der Tensilica DNA 100 eingesetzt werden könnte, macht Louis an einer der anspruchsvollsten Anwendungen – Objekterkennung und Entscheidung im Fahrzeug – deutlich. »In solchen Anwendungen werden typischerweise die Daten von Radar, Lidar, Kameras und Ultraschallsensoren vorverarbeitet, danach analysiert und auf Basis dessen eine Entscheidung getroffen.« Und genau für die Analyse und Entscheidungsfindung eignet sich der Tensilica DNA 100.

Wie er oben schon erklärt hat, zeichnet sich der neue IP-Core durch eine extrem hohe Rechenleistung aus. Seiner Aussage nach erreicht der Tensilica-Prozessor im Vergleich zu konkurrierenden Ansätzen mit vergleichbaren Array-Größen eine um den Faktor 4,7 höhere Rechenleistung. Und hinsichtlich der Energieeffizienz erklärt Louis weiter: »Auch hier schneidet unser Tensilica-DNA-100-Prozessor deutlich besser als konkurrierende Produkte ab, denn die Energieeffizienz ist bis zu 2,3-mal höher.«

Wie kommt die hohe Rechenleistung zustande? Louis erklärt, dass die Prozessoren darauf ausgelegt sind, so sparsam wie möglich bei gleichzeitig hoher MAC-Auslastung zu rechnen. So sparsam wie möglich heißt, dass Gewichtungen und Aktivierungen, die Null sind, nicht mit in die Rechnungen einfließen. Und das ist einiges, denn nach dem Training eines neuronalen Netzes gibt es viele Gewichtungen und Aktivierungen, die für die Inferenz kaum von Bedeutung sind und einen Wert nahe 0 haben. Diese werden dann exakt auf 0 gesetzt, sodass die zu berechnenden Matrizen kleiner ausfallen.

Louis weiter: »Dank der Tatsache, dass nur Non-Zero-MAC-Operationen durchgeführt werden, sinkt der Rechenaufwand.« Außerdem kann der Tensilica DNA 100 komprimierte Daten lesen und schreiben, sodass die erforderliche Bandbreite verringert wird. Der eng angebundene Tensilica-DSP wiederum übernimmt die Kontrolle des KI-Beschleunigers. Louis weiter: »Dank dieses DSP sind die auf dem Tensilica-DNA-Prozessor basierenden Designs auch zukunftssicher. Denn der DSOP kann jede neuronale Netzwerkschicht aufnehmen, die derzeit von der Hardware-Engine unterstützt wird.« Außerdem könnten Entwickler mithilfe der TIE-Instruktionen (Tensilica Instruction Extension) den Xtensa-Kern kundenspezifisch anpassen.