Pulin betont, dass der C5 im Vergleich zu konkurrierenden Ansätzen durchaus Vorteile hat. Als erstes verweist er auf die Kombination eines DSPs mit einem NN-Hardware-Beschleuniger versus C5. Ein Hardware-Beschleuniger würde nur dazu genutzt, um die Aufgaben der Faltungs- und der vollverbundenen Schichten zu beschleunigen, Normalisierung/Pooling hingegen laufe auf dem DSP. Der C5 dagegen könne alle Schichten eines NNs beschleunigen. Die meisten Hardware-Beschleuniger beruhten außerdem auf den heutigen Ansprüchen und seien deshalb nicht zukunftssicher. Der C5 dagegen unterstütze verschiedene Kernel-Größen, NN-Tiefen und unterschiedliche Kompressions-/Dekompressionstechniken, und es könnten auch neue Schichten hinzugefügt werden, wenn sie verfügbar werden.
Außerdem könnte bei einem DSP/Hardware-Beschleuniger-Ansatz der DSP keine andere Applikationen abarbeiten, wenn das NN läuft. Auch hier könne der C5 punkten: Weil das gesamte NN auf dem C5 läuft, sei der eigentliche DSP von diesen Aufgaben befreit und könne andere Programme abarbeiten. Pulin: »Hinzu kommt noch, dass es deutlich einfacher ist, den C5 zu programmieren als die Kombination aus DSP und Hardware-Beschleuniger. Zudem fallen die gesamten Datenbewegungen zwischen DSP und Hardware-Beschleuniger weg, denn der C5 rechnet alles alleine durch.« Als letzten Pluspunkt weist Pulin noch darauf hin, dass mit dem C5 dank geteilter Speicher-Architektur, Interrupts/Queues für die Synchronisierung, einer automatisierten Erzeugung eines Multi-Prozessor-SystemC-Modells und eines synchronen Multi-Prozessor-Debuggens Multi-Prozessor-Systeme einfach realisiert werden können.
Bei einem DSP/Hardware-Beschleuniger wäre es in vielen Fällen notwendig die Kombination der beiden zu vervielfachen, um eine Leistungssteigerung zu erreichen. Pulin: »Damit steigen der Platzbedarf und die Leistungsaufnahme.«
NNs mithilfe von CPUs und GPUs zu realisieren, ist natürlich auch möglich, doch auch hier sieht Pulin den DSP-IP-Core C5 ebenfalls ganz klar im Vorteil. Zwar sind CPUs/GPUs flexibel und einfach zu programmieren, aber die maximale Performance und auch die Energieeffizienz lassen dann doch zu wünschen übrig. Pulin: »Bei GPUs/CPUs liegt die maximale Performance pro Core unter 200 GFLOPs.« Und auf die Frage, wie er die Konkurrenz des C5-Cores gegenüber FPGAs einschätzt, erklärt er: »FPGAs eignen sich für die Realisierung von neuronalen Netzen, aber in den von uns adressierten Applikationen werden keine FPGAs genutzt, denn sie sind zu teuer, und der Leistungsverbrauch ist zu hoch.«
Für die Entwicklung mit dem C5 steht die gleiche Tool-Chain wie für die P5/P6-DSP-Cores zur Verfügung. Das neuronale Netz wird mithilfe des NN-Descriptors von Cadence entwickelt und mit Tools wie Caffe oder TensorFlow trainiert. Danach kommen der Mapper/Compiler von Cadence und die Software-Bibliotheken zum Einsatz, mit denen das NN in einen hochoptimierten Code für den C5-Core übersetzt wird. Darüber hinaus haben Entwickler natürlich auch Zugriff auf das Ecosystem von Cadence. Pulin abschließend: »Im dritten Quartal steht der C5 zur allgemeinen Lizenzierung bereit.«