NXPs Crossover-Prozessoren Brücke zwischen Leistung und Bedienbarkeit

Nimmt man energiesparende Mikrocontrollertechnologie, wie sie der ARM Cortex-M7-Core darstellt, und erweitert diese auf ein Featureset, wie es der ARM Cortex-A7-Application-Core bietet, erhält man besonders leistungsfähige Crossover-Prozessoren, die das Beste aus beiden Welten integrieren.

Die neue Klasse der Crossover-Prozessoren erweitert die einfach implementierbare und echtzeitfähige Low-Power-Mikrocontrollerarchitektur um flexible Applikationsmöglichkeiten, wie etwa eine IoT-Funktionalität, ohne drastisch die Kosten zu erhöhen. Damit erhalten Entwickler leistungsfähige und skalierbare Mikrocontroller-Plattformen, mit denen sie die Funktionalität und Anwenderfreundlichkeit ihrer Applikationen signifikant steigern können, ohne kosten- und zeitintensive Migrationen hin zu Applikationsprozessoren und den damit mitunter verbundenen aufwendigen Linux-Implementierungen.

Wenn man davon ausgeht, dass die Evolution hin zu einer smarten vernetzten Welt nur durch evolutionäre Innovationen vorangetrieben werden kann, wäre eine Grundsatzentscheidung zwischen Mikrocontrollern einerseits oder Applikationsprozessoren andererseits eine deutliche Einschränkung. Entwickler von embedded Produkten sollen vielmehr Prozessoren auswählen können, die Innovationen in ihren Designs optimal unterstützen, anstatt durch Barrieren bei der Prozessorauswahl in ihrem Innovationspotenzial limitiert zu werden. Deshalb ist der Brückenschlag über die technologische Kluft zwischen Mikrocontroller und Applikationsprozessor höchst innovativ und NXP hat ihn mit der Erweiterung der High-End-ARM-Cortex-M7-Technologie um Features des Low-End-ARM-Cortex-A7-Applikationsprozessors umgesetzt.

Solche Crossover-Embedded-Prozessoren für Consumer-, Industrie- und IoT-Applikationen kombinieren die Performanz, Funktionalität und Einsatzmöglichkeiten von Applikationsprozessoren mit der bei Mikrocontrollern typischen einfachen Handhabung, dem geringen Energiebedarf und dem Echtzeitbetrieb mit geringen Interrupt-Latenzen. Zudem sind Crossover-Prozessoren darauf ausgelegt, die Gesamtsystemkosten zu senken, da sie weder internen Flash-Speicher noch externen DDR-Speicher oder Power-Management-ICs benötigen.

Crossover-Prozessoren nutzen dabei die grundlegende Struktur der Applikationsprozessoren. Dadurch zeichnen sie sich durch eine hohe Integration, schnelle Peripherie, mehr Sicherheitsmerkmale sowie 2D/3D-Grafik-Engines aus. Im Kern arbeitet allerdings ein Low-Power-Mikrocontroller mit einem RTOS-Echtzeitbetriebssystem. Damit stellen Crossover-Computer eine neue Leistungsklasse für Mikrocontroller dar, die Applikationsprozessor-Performance bieten. Der Vorteil: Entwickler können ihre aktuellen Toolchains weiter nutzen, –ohne dass sie zusätzlich Zeit und Kosten in eine komplexere Linux-Softwareumgebung – oder andere High-Level-Betriebssysteme – sowie in ihren Produktentwicklungszyklus investieren müssen. 

Das Beste aus zwei Welten auf einem Die 

Zu den elementaren Vorteilen der Crossover-Prozessoren zählen nicht nur eine hohe Energieeffizienz, sondern auch gesteigerte Sicherheit und Performance sowie geringere Latenz. Embedded-Crossover-Prozessoren sind durch einen integrierten Gleichspannungswandler sowie durch effektive Power-Gating-Techniken auf eine hohe Energieeffizienz optimiert. In der Praxis erreichen Crossover-Prozessoren in 40 nm Fertigungstechnologie, die häufig für Embedded-Prozessoren genutzt wird, eine Leistungsaufnahme von nur 100 µA/MHz im laufenden Betrieb. Das ist weniger als die Hälfte dessen, was gegenwärtig mit führenden MCUs möglich ist. 

Die hohe Datensicherheit von prozessorintegriertem Flash-Speicher wird oft als Grund genannt, ihn in Prozessor-Designs einzusetzen. Werden sicherheitskritische Daten und sensible Anwendungsprogramme im Chip selbst gespeichert, sind sie sofort verfügbar und müssen nicht über externe Pins auf den Chip übertragen werden.

Bei jeder Datenübertragung können Hacker nämlich über eine Seitenkanalattacke Daten abfangen oder korrumpieren, indem sie die elektrischen Signale an den Datenpins überwachen. Daten sind insbesondere dann anfällig, wenn sie im ›Klartext‹ – also unverschlüsselt– übertragen werden. Bei Embedded-Crossover-Prozessoren gibt es hier keinen Grund zur Sorge, da sie – wie Applikationsprozessoren – über hardwarebeschleunigte kryptografische Funktionseinheiten verfügen. Damit können alle Daten in einem verschlüsselten Format extern gespeichert werden. 

Geringe Cache-Miss-Rate, niedrige Interrupt-Latenz 

Crossover-Prozessoren mit einer hohen Speicherdichte von chipintegriertem Tightly-Coupled-Memory (TCM) oder Cache erreichen bei den gängigsten IoT-Anwendungen eine Cache-Miss-Rate von nur 1-2%. Damit liefern sie eine deutlich höhere effektive Netto-Performance als MCUs. 

Crossover-Prozessoren arbeiten mit einem Mikrocontroller-Kern. Sie bieten deshalb eine häufig geforderte niedrige Interrupt-Latenz von Haus aus, obwohl sie auf der Struktur von Applikationsprozessoren basieren. Crossover-Prozessoren können eine Interrupt-Latenz von nur 10 bis 20 ns erreichen. Zum Vergleich: Bei Applikationsprozessoren erlebt man häufig eine Latenz von bis zu einer µs. Damit sind Crossover-Prozessoren bestens für IoT-Applikationen geeignet.

Relevante Branchen und Applikationen 

Durch die gezielte Kombination von Eigenschaften für hohe Performanz und flexible Verwendbarkeit sind Crossover-Lösungen besonders für Applikationen geeignet, die bisher weder von Applikationsprozessoren noch von Mikrocontrollern umfassend bedient werden konnten. EBV Elektronik geht deshalb davon aus, dass in den kommenden Jahren auf Basis der neuen Crossover-Prozessoren viele höchst kreative Lösungen sowohl von Startups als auch von etablierten Anbietern entwickelt werden. 

Im Rahmen des IoT Innovation Worldcups und des EBV IoT Hero Awards wird es mit Sicherheit verschiedene Nominierungen geben, die auf den neuen i.MX RT Crossover-Prozessoren von NXP basieren. NXP hat die Markteinführung seit einiger Zeit intensiv vorbereitet. Die System- und Technologiespezialisten wurden bereits sehr früh von NXP geschult und auf die Produkteinführung des i.MX RT vorbereitet. Seit einigen Monaten stellen sie nun zusammen mit den jeweiligen Spezialisten für die verschiedenen vertikalen Märkte die neuen i.MX-RT-Plattformen in den entsprechenden Segmenten vor.

Besonders beeindruckt zeigen sich Entwickler unter anderem von der hohen Performance der neuen Cortex-M7-Plattformen mit dem Cortex A7 Featureset. Die i.MX RT-Serie läuft mit einer Core-Geschwindigkeit von bis zu 600 MHz – im Gegensatz zu aktuellen Mikrocontrollern, die eine Maximalgeschwindigkeit von nur 400 MHz bieten. Sie ist die leistungsstärkste Cortex-M7-Lösung und erreicht einen CoreMark von 3015 beziehungsweise 1284 DMIPS (>2 DMIPS/MHz).

Die i.MX RT-Serie besticht zudem dank ihrer hohen Speicherdichte von 512 KB TCM-SRAM durch ihre extrem schnellen Echtzeitreaktionen. Die Interrupt-Latenz beträgt nur 20 ns. Dies ist aktuell die weltweit kürzeste Interrupt-Latenz aller auf ARM Cortex basierenden Produkte. Insgesamt übertreffen die i.MX RT Crossover-Prozessoren den direkten Wettbewerb um den Faktor 2.

Die i.MX-RT-Serie bietet aber nicht nur Performance auf dem Leistungsniveau von Applikationsprozessoren, sie kombiniert diese auch mit den wichtigen Brauchbarkeitsmerkmalen aus der Mikrocontroller-Welt wie einfache Handhabung, niedrige Kosten und Kompatibilität zu der vorhandenen Echtzeit-Softwareinfrastruktur sowie zu den vorhandenen Toolchains. Damit können die neuen Crossover-Prozessoren in spezifischen Applikationen den entscheidenden Unterschied ausmachen. Die wichtigsten Applikationsfelder sind: 

  • Consumer-Geräte wie Kameras, LCD-Monitore und Fernseher sowie andere High-End-Displays und intelligente Haushaltsgeräte,
  • Audio-Subsysteme für High-End-Consumer-Audiogeräte, einschließlich Spezialequipment wie Gitarrenpedale,
  • Embedded-Designs für Massenmarktanwendungen wie Messgeräte, intelligente Medizintechnik, Verkaufsautomaten und IoT-Gateways,
  • HMI-Grafikfunktionen für die Heim- und Gebäudeautomation, HLK, Beleuchtungssteuerung und Sicherheitsanlagen,
  • Industriecomputer wie SPSen, HMI-Steuerungen, Fertigungsroboter sowie M2M-Systeme und Mess- und Prüftechnik und
  • Motorsteuerungen und sonstige Energiewandler für professionelle Geräte wie 3D- und Thermodrucker und Drohnen. 
  • Anmerkung der Redaktion: DESIGN&ELEKTRONIK wird den i.MX RT auf der Basis eines Vortrags auf der ARM TechCon 2017 noch genauer unter die Lupe nehmen und die einzelnen Elemente auf dem SoC und deren Vorteile gegenüber bisherigen Angeboten vorstellen.

ARMs Cortex-M7 

ARMs Cortex-M3 und -M4 stellen im Mikrocontroller-Bereich eine beispiellose Erfolgsgeschichte dar. Nichtsdestotrotz gibt es Märkte, auf die es der Cortex-M4 aufgrund diverser Defizite niemals geschafft hat und auch niemals schaffen wird. Entweder fehlt Rechenleistung (auch dank der nur dreistufigen Pipe­line, welche die Taktfrequenzen doch sehr limitiert, und des einfachen Speichersystems ohne TCMs/Caches) oder Eigenschaften für sicherheitskritische Anwendungen (zum Beispiel Fehlererkennung/Korrektur auf Speicher, Lockstep-Betrieb) oder beides.

Diese offensichtlichen Schwachstellen hat ARM beim »Pelican« beseitigt. Mit seiner superskalaren Befehlsausführung dank der dual-issue-6-stufigen In-Order-Pipeline erreicht der Cortex-M7 schon in einem 40-nm-LP-Prozess eine Taktfrequenz von 400 MHz; die Rechenleistung steigt von 3,4 auf 5,00 CoreMark/MHz, gemessen mit dem IAR-Compiler. Zum Vergleich: Ein PIC32Z von Microchip mit seiner MIPSM4K-CPU kommt auf 3,2 CoreMark/MHz, ein RX64M mit der RXv2-CISC-CPU von Renesas auf 4,25 CoreMark/MHz. Unterstützt wird nunmehr auch Gleitkommaarithmetik mit doppelter Genauigkeit, was zum Beispiel für die Nutzung von Mathlab mit automatischer Codegenerierung essentiell ist. Dank der hohen Rechenleistung - und in der Folge noch detaillierter beschriebenen leistungsfähigeren Hardware-Ressourcen - ist neben Mathlab natürlich auch eine produktivere Software-Entwicklung mit Java, der ARMmbed-Entwicklungsplattform oder Micriums µC-Echtzeitsoftware in Betracht zu ziehen. Deutlich aufgebohrt wurde das Speichersystem. Der Tightly-Cou­pled-Speicher (TCMs) getrennt für In­struk­tionen und Daten für On-Chip-Flash- beziehungsweise SRAM-Speicher zielt auf deterministische Echtzeitanwendungen; eine 64-bit-AXI-AMBA4-Speicherschnittstelle mit zwei jeweils 4 bis 64 KB großen Caches für Befehle und Daten dient zur Verbindung eines großen externen Speichers; daneben gibt es einen 32 bit breiten AHB-Lite-Bus für die On-Chip-Peripherie. Wie auch der Cortex-M4 basiert der M7 auf ARMs v7E-M-Architektur, was eine hundertprozentige Code-Aufwärtskompatibilität vom M4 bedeutet (anders herum gilt das dank einiger Cortex-M7-spezifischer Erweiterungen nicht).

Die mit 12 Taktzyklen geringe Interrupt-Latenz des Cortex-M4 konnte beim Cortex-M7 sogar in manchen Fällen noch um einen Zyklus auf 11 Taktzyklen verringert werden, die Regel sind auch hier 12 Taktzyklen (gemessen vom Auftreten des Interrupts bis zur Ausführung der ersten Instruktion in der Interrupt Service Routine). Wichtig: Diese Angaben gelten natürlich nur bei einem Null-Wait-State-Betrieb bezüglich des Speicherzugriffs; beim Cortex-M7 ist es wichtiger denn je, dass ARMs Lizenznehmer, die MCU-Hersteller, Flash-Speicherbeschleuniger (wie zum Beispiel STMicros ART) implementieren.

Die DSP-Leistung konnte gegenüber dem Cortex-M4 verdoppelt werden, auch weil man neue DSP-Bibliotheken von der amerikanischen Firma DSP-Concept hat entwickeln lassen. Hier wurde eine offensichtliche Schwachstelle der Vorgängerarchitektur erfolgreich angegangen: Mit einigen Derivaten von diskreten 32-bit-DSPs wie ADIs Blackfin oder TIs C28x-Chips (natürlich nicht mit High-End-DSPs, die für 60 Dollar oder mehr verkauft werden, dieser Vergleich wäre hochgradig unfair) kann der Cortex-M7 nicht nur mithalten, sondern teilweise sogar bessere Werte zum Beispiel bei Biquad- oder FIR-Operationen vorweisen.

Bei den Sicherheitseigenschaften sind Fehlerkorrektur auf den Speichern (ECC, ein Fehler wird korrigiert, zwei Fehler werden erkannt), Speicherschutz-Einheit (MPU), Speicherselbsttest, Lock-Step-Betrieb und ein Safety-Manual zu nennen. Letzteres hilft ARMs Kunden, Anwendungen im Bereich der funktionalen Sicherheit zu zertifizieren. Diese funktionalen Erweiterungen gehen – da auch ARM die Physik nicht ausschalten kann – natürlich auf Kosten der Leistungsaufnahme. Um diese trotz allem möglichst niedrig zu halten, hat ARM das M7-Design auch in diese Richtung verbessert: Drei separate Power-Domänen (Interrupts, Prozessor, Cache) und gegenüber dem Cortex-M4 deutlich erweitertes Clock-Gating und Power-Gating ermöglichen ARMs Lizenznehmern deutlich mehr Optionen in Richtung Energiesparen. Dazu kommen vier Energiesparmodi (Power Off, Deep Sleep (WIC), Deep Sleep und Sleep). Im Deep-Sleep-Modus wird der Core komplett abgeschaltet und von einem optionalen Wake-Up-Interrupt-Controller (WIC) wieder aktiviert, was noch energiesparender ist als ein aktiver interner Interrupt-Controller NVIC.