Nach dem »Adler« nun der »Reiher« ARMs Cortex-R5 und -R7 für Echtzeitanwendungen

In ARMs Kerngeschäft, dem Mobilfunk, beträgt der Marktanteil der Core-Schmiede über 90 Prozent. Steigende Anforderungen im Basisband durch LTE erfordern mehr Rechenleistung, die durch den Cortex-R5 und den R7 geliefert werden soll. Nebenbei eignen sich beide Prozessoren auch für sicherheitskritische Automobil- und Industrieanwendungen.

Die unter dem Codenamen „Heron“ entwickelten superskalaren Cortex-R-Prozessoren zielen auf Märkte, wo harte Echtzeitanforderungen bestehen. Im Basisband-Bereich dominierten bislang ARM9-, ARM11- und Cortex-R4-Cores, wo ihre vergleichsweise limitierte Rechenleistung für HSDPA und HSPA+ noch ausreichte. Mit LTE sieht die Welt jedoch anders aus: Schon LTE Cat 3 erfordert rund 500 DMIPS, LTE Cat. 5 schon 1000 DMIPS und LTE Advanced (LTE A) mit einer maximalen Download-Rate von 1 Gbit/s wird Prozessoren benötigen, die 1200 DMIPS oder mehr liefern. Im Automobilbereich gibt es ja u.a. den Trend der Zusammenführung von mehreren Sensoren, deren Auswertung auch erheblich mehr Rechenleistung benötigt. Auch sollen dank der Explosion der ECU-Zahl insbesondere in Oberklasse-Wagen mehrere Funktionen auf einen Domain-Controller zusammengeführt werden. Last but not least sollen die Cores dank erweiterter Sicherheitsfunktionen auch bei (deutschen) Herstellern von AC-Motoren in der Leistungsklasse von 100 KW und mehr Einzug halten. Damit sollen die Anforderungen der ISO 26262 erfüllt werden. Im Medizinbereich will ARM im Bereich der mobilen Geräte wie bei mobilen Ultraschall weitere Marktanteile gewinnen. Dort hatte ja z.B. Infineon erst im Juni 2010 eine Medizin-Plattform auf Basis des Vorgängers Cortex-R4 vorgestellt.

Der Cortex-R5 baut auf dem Cortex-R4 auf, liefert jedoch 1,66 DMIPS/MHz, was mehr ist als der Cortex-R4X, eine mit Intrinsity’s Fast14-Logik „getunter“ R4 auf 1,6 DMIPS/MHz kommt. Er kann bei Fertigung in einem 40-nm-LP-Prozess bis zu 480 MHz getaktet werden und kommt damit auf fast 800 DMIPS, was für LTE Cat.3 und LTE Cat. 4 ausreicht. Eine Low-Latency-Periphal-Port (LLPP) genannte Einheit soll einen besonders schellen Zugriff auf I/O-Register und einen externen Interrupt-Controller ermöglichen. Die Speicherschutzeinheit (MPU) kann jetzt wahlweise 12 oder 16 Speicherbereiche überwachen (beim Coretx-R4 war sie auf 8 Bereiche limitiert), dazu gibt es eine FPU, die optional auch nur mit einfacher Genauigkeit rechnet und damit rund 30000 Gatter (=Energie und Siliziumfläche) einspart. Die Fehlererkennung und -korrektur bei Hard- und Soft-Errors, die bisher „nur“ auf die L1-Cache-Speicher limitiert war, wurde auch auf den AXI/AHB-Bus ausgeweitet.

Neben einer Single-Core-Version ist auch eine Dual-Core-Version verfügbar (Bild 1 a). Eine Micro-Snoop-Control-Einheit (µSCU) ermöglicht Kohärenz zwischen Speichersystem und beiden Cores auch bei DMA-Transfer, wodurch der Software-Overhead erheblich reduziert und damit die Verarbeitungsgeschwindigkeit gesteigert werden kann. Eine Kohärenz zwischen beiden Cores, wie sie beim R7 gegeben ist, fehlt, allerdings spart die „kleine“ SCU gegenüber der SCU des R7 mehrere Tausend Gatter ein. Ein Anwendungsbeispiel wäre, wenn bei einem LTE-Basisband-Prozessor sowohl Schicht-2- als auch Schicht-3 Protocol-Stacks abgearbeitet werden, die beide auf dieselben Daten zugreifen, die von Schicht-1 geliefert werden. In der Dual-Core-Ausführung können diese in sicherheitskritischen Anwendungen im Lock-Step-Verfahren betrieben werden, was besonders für den Automotive- und Industrie-Bereich interessant ist.

Der Cortex-R7 liefert mit 2,53 DMIPS/MHz nochmals 50 % mehr Rechenleistung als der Cortex-R5 und kann in einem 40-nm-LP-Prozess bis 600 MHZ getaktet werden, wodurch er in einer Dual-Core-Ausführung (Bild 1b) auf über 3000 DMIPS kommt. Zum Vergleich: Der Applikationsprozessor von Apples iPad, der A4, kommt bei 1 GHz Taktfrequenz geschätzt auf 2000 DMIPS. Entsprechend zielt er neben Basisband-Chips für LTE Advanced auf sicherheitskritische Echtzeitanwendungen mit höchstem Rechenleistungsbedarf im Automobilbereich – wie Drive-by-Wire, oder Fahrerassitenzsysteme, die schon alleine durch den Autosar-Standard nochmals mehr Rechenleistung benötigen. Er integriert im Gegensatz zum R5 den Interrupt-Controller für noch schnellere Reaktionszeiten.

Im Gegensatz zum R5 enthält der R7 optional einen zweiten 64-bit-AXI-Bus, über den ein schneller Zugriff auf RAM oder andere Hardware, bei der extrem geringe Latenzzeit erforderlich sind, erfolgen kann. In dem RAM können z.B. die zeitkritischsten Routinen wie z.B. Interrupt-Service-Routinen abgelegt werden. Desweiteren gibt es wie beim R5 auch noch lokalen Speicher (TCM), auf den garantiert ohne Wait-States zugegriffen werden kann.