Applikationsprozessoren von NXP KI-Fähigkeiten für das Edge

NXP Semiconductors stellt mit dem i.MX 8M Plus den ersten i.MX-Applikationsprozessor vor, der nicht nur mit viel Rechen-Power, sondern auch mit einem dedizierten ML-Beschleuniger (ML: Maschinenlernen) ausgerüstet ist.

Mit dem neuen i.MX 8M Plus adressiert NXP diverse Applikationssegmente einschließlich ML-Anwendungen, Bildverarbeitung, anspruchsvolle Multimedia-Applikationen sowie das IIoT (industrielles Internet of Things). Die wichtigsten Einheiten des neuen i.MX 8M Plus von NXP sehen dementsprechend folgendermaßen aus:

  • Ein Quad-Cortex-A53-Prozessor mit einer NPU (Neural Processing Unit), die auf eine Rechenleistung von bis zu 2,3 TOPS kommt
  • Dual-ISPs (Image Signal Processors) und zwei Kamera-Eingänge für Vision-Systeme
  • Multimedia-Funktionen mit Video-Encoder (einschließlich H.256) und -Decoder, 3D/2D-Grafikbeschleuniger sowie mehrere Audio- und Sprachfunktionsblöcke
  • Echtzeitfähigkeit mit dem Cortex-M7-Prozessor; diverse Kommunikationsmöglichkeiten einschließlich CAN-FD und Gigabit-Ethernet mit TSN (Time Sensitive Networking)

Prozessordetails

NXP setzt bei der Fertigung der neuen Applikationsprozessoren auf eine 14-nm-FinFET-Technologie. Der Cortex-A53 läuft mit bis zu 1,8 GHz, der Cortex-M7 ist mit bis zu 800 MHz getaktet. Dazu kommt noch ein Tensilica-DSP (HiFi4-DSP) als Beschleuniger für die maschinelle Sprachverarbeitung mit 800 MHz, der die natürliche Sprachverarbeitung um die Vor- und Nachbearbeitung von Sprachströmen erweitert. Die Speicherschnittstellen (32/16 bit) mit ECC für die Anbindung externer Speicher unterstützen DDR3L, DDR4 und LPDDR4 mit einer Transferrate von bis zu 4,0 GT/s. Die ISPs sind für eine Auflösung bis zu 12 MPixel geeignet und können eine Eingangsrate von bis zu 375 MPixel/s verarbeiten. An Kameraschnittstellen stehen zwei MIPI-CSIs einschließlich PHY zur Verfügung.

Für Multimedia- und Displayanwendungen sind folgende Einheiten integriert: 1080P-Video-Decoder (H.265/4, VP9, VP8), 1080P-Video-Encoder (H.265/4, VP8), GPU mit 16 GFLOPS (OpenGL ES 3.1, Vulkan, Open CL 1.2 FP, OpenVG 1.1) und mehrere Audio-Schnittstellen (18 × I2S TDM, DSD512, S/PDIF Tx und Rx, 8-kanaliger PDM-Mikrofoneingang, eARC und ASRC). An Schnittstellen sind neben den bereits erwähnten Gigabit-Ethernet- (zwei Schnittstellen mit AVB, IEEE 1588, EEE und 1x w/TSN) und CAN-FD- (zwei Schnittstellen) noch zwei USB-3.0/2.0-OTG- (mit PHY Typ C), eine PCIe-Gen-3- sowie drei SDIO-Schnittstellen (3.0) integriert. Darüber hinaus hat NXP auch viele Security-Funktionen implementiert. Dazu zählen neben ARM TrustZone und DRM-Verschlüsselungsverfahren Secure Clock, Key-Speicher mit eFuse, Zufallszahlengenerator und 32 kbit an Secure RAM. Dazu kommen die gängigen Funktionsblöcke wie ein intelligenter DMA-Controller, PLLs, Watchdog-Timer und Temperatursensor.

Anwendungsbeispiele

Die Bausteine können dank der Kombination aus allen Recheneinheiten einschließlich KI-Beschleuniger, Sprach-, Gesten-, Objekt-, Sprecher- und Gesichtserkennung sowie Objektsegmentierung oder AR-Anwendungen durchführen. So kann der NXP i.MX 8M Plus mehrere hochkomplexe neuronale Netzwerke gleichzeitig ausführen, wie zum Beispiel Multi-Objekt-Identifikation, Spracherkennung von mehr als 40.000 englischen Wörtern und medizinische Bildgebung. Die leistungsstarke NPU ist in der Lage, über 500 Bilder pro Sekunde in Mobilenet, einem Bildklassifikationsnetzwerk, zu verarbeiten. Entwickler können KI-Inferenzfunktionen auf die NPU (KI-Beschleuniger) auslagern, sodass die restlichen Recheneinheiten andere Aufgaben auf Systemebene oder auch Benutzeranwendungen ausführen können. NXP sieht sich mit 2,3 TOPS Rechenleistung für ML-Anwendungen im Hotspot derzeitiger Anwendungsgebiete positioniert. Denn laut NXP benötigt eine vollständige Spracherkennung (also nicht nur Schlüsselwörter) im Edge 1 bis 2 TOPS (abhängig vom Algorithmus und davon, ob man das was der Sprecher sagt, auch wirklich verstehen will oder ob es nur um eine Sprach-zu-Text-Konvertierung geht). Eine Objekterkennung bei 60 fps mit einem Algorithmus wie Yolov3 wiederum benötigt 2 bis 3 TOPS, ergo liegt NXP mit seinen 2,3 TOPS optimal.