Cadence Design Systems DSP-Core mit 1 TMAC/s

Blockschaltbild des Vision C5 DSP-Cores von Cadence (Bild: Cadence Design Systems)

Der „Tensilica Vision C5“-DSP von Cadence Design Systems ist ein optimierter DSP-Core, der bei einer Rechenkapazität von 1 TMAC/s alle Schichten eines neuronalen Netzes (NN) berechnen kann: Faltungsschicht, vollverbundene Netzwerkschichten (fully connected), Normalisierungs-/Pooling-Schicht.

Pulin Desai, Product Marketing Director der Tensilica Vision DSP Product Line IP Group von Cadence, beziffert die Rechenleistung des C5-Cores mit 1 TMAC/s. Wird der DSP in einem SoC implementiert, das mit einem 16-nm-Prozess gefertigt wird, belegt der Core eine Fläche von 1 mm². Als Zielapplikationen für den Core nennt Pulin Überwachungskameras, Automotive-Anwendungen, Dronen und Mobiltelefone sowie Wearables.

Mit der Entwicklung des C5-Cores will Cadence den steigenden Anforderungen an NNs gerecht werden. In diesem Zusammenhang verweist er darauf, dass innerhalb der letzten vier Jahre die notwendige Rechenleistung in den verschiedenen NN-Architekturen um einen Faktor von rund 16 gestiegen ist:

AlexNet: 724.406.816 MACs/Bild;

RESNET-152: 11.282.415.616 MACs/Bild.

Gleichzeitig ändern sich die NN-Architekturen stetig, und immer mehr Märkte und Anwendungen wollen die Möglichkeiten nutzen, die neuronale Netze bieten. »Das alles erfordert einen flexiblen, in seiner Leistungsfähigkeit skalierbaren und energiesparenden Ansatz«, so Pulin. Geht es um Anwendungen wie autonomes Fahren, sind natürlich ganz andere Rechenleistungen erforderlich (bis zu 10 TMAC/s), als wenn auf dem Mobiltelefon ein NN für die Spracherkennung genutzt wird (unter 200 GMAC/s). Und all diesen Anforderungen will Cadence jetzt mit seinem C5-Core gerecht werden, denn zum einen ist der C5 programmierbar und damit flexibel, zum anderen ist er auch noch so aufgebaut, dass er mit weiteren C5-Cores zu einem Multi-Prozessor-Design kombiniert werden kann, so dass eine Skalierbarkeit bis zu mehreren TMAC/s gegeben ist.

Der C5 zeichnet sich durch folgende Merkmale aus:

• 1 TMAC/s Rechenkapazität (viermal höher als beim Vision P6-DSP),

• 1024 8-Bit-MACs oder 512 16-Bit-MACs,

• 4-Wege-VLIW- Architektur mit 128-Wege-SIMD- (8 Bit) oder 64-Wege-SIMD-Einheit,

• AXI4 und iDMA sind integriert.

• Dasselbe Software-Toolset für Vision P5 und P6 DSPs kann auch für den Vision C5 genutzt werden.