ARM Call for Papers

Konferenz für ARM-Systementwicklung
Konferenz für ARM-Systementwicklung

Die große Konferenz für ARM-Systementwicklung am 11. und 12. Juli 2012 in München bietet Entwicklern die Gelegenheit, sich detailliertes Wissen über die aktuellen Cortex-Architekturen anzueignen, die mittlerweile zum Industriestandard avanciert sind.

Ausführliche Informationen:
www.arm-entwicklerkonferenz.de

iPad 3 Teardown & Light+Building

Intel-Prozessor im Smartphone
Intel-Prozessor im Smartphone

Mit dem Lava Xolo X900 gibt es erstmals ein Smartphone, das auf einem Atom-Prozessor von Intel basiert. Kann das mit ARM mithalten? Wir haben das untersucht.

Der kleinste 32-bit-Core der Welt
Der kleinste 32-bit-Core der Welt

Mit dem Cortex-M0+ hat ARM im März den kleinsten 32-bit-Core der Welt vorgestellt. Wir haben ihn uns einmal genauer angeschaut.

Was bringen Quad-Cores in Smartphones?
Was bringen Quad-Cores in Smartphones?

Der Tegra-3 von Nvidia ist der erste Quad-Core-Prozessor für Smartphones und Handys - ganz aktuell im neuen Galaxy S3. Doch bringen vier Kerne im Smartphone überhaupt etwas?

Reingeschaut: Das Galaxy Nexus
Reingeschaut: Das Galaxy Nexus

Ein Blick in dass Innenleben des gemeinsam von Google und Samsung entwickelten Smartphones.

Entwicklungstools zum Download
Entwicklungstools zum Download

Zahlreiche Hersteller bieten im Netz Online-Tools, zeitlich begrenzte Testversionen oder ganze Programmme zum Download an. Wir haben eine kleine Auswahl davon zusammengestellt.

Produkte des Jahres 2012

Events

Marktübersichten Bauelemente

Bauelemente-Marktübersichten

Electronic WebLessons

Electronic WebLessons
Electronic WebLessons

Die Electronic WebLessons vermitteln multimedial aufbereitet Basiswissen zum Thema Elektronik. Hier können Sie ihr Praxiswissen auffrischen oder sich die Grundlagen der Elektronik neu aneignen.

04. Juni 2010
Doping für den Cortex-R4

special Fast14-Technologie beschleunigt Prozessor-Core

Wenn ein Cortex-R4 alleine nicht mehr ausreicht, helfen der Wechsel auf ein Multicore-Design oder auf einen anderen leistungsfähigeren Prozessor. Beides ist mit erheblichen Entwicklungsaufwänden und Kosten verbunden. Eine neue vollständig abwärtskompatible Version des Cortex-R4 treibt die Leistung dank innovativer Fast14-Logik nach oben.

Anzeige

Das texanische Unternehmen Intrinsity, das im April 2010 von Apple gekauft wurde und angeblich den A4-Prozessor für das iPad entworfen hat, hatte schon zuvor unter Verwendung seiner patentierten Fast14 genannten Technologie bereits einen Power-Prozessor-Core für AMCC entwickelt und dabei die Rolle eines IP-Herstellers und einer Design- Firma eingenommen.

Auch der zweite große Hersteller von Embedded- Prozessoren, ARM, hatte die Vorteile dieser Technologie erkannt und Intrinsity beauftragt, mit Hilfe von Fast14 das synthetisierbare Modell des Cortex- R4-Cores in eine Makrozellen- Struktur zu überführen. Das Ergebnis ist der Cortex-R4X, eine erheblich leistungsfähigere Version des Cortex-R4. Er kann im schlechtesten Fall bei Herstellung in einem TSMC-65LP-Prozess eine Taktfrequenz von 600 MHz erreichen. Die geschwindigkeitsoptimierte Version des Soft-Core erreicht dagegen beim selben Prozess maximal 380 bis 400 MHz. Würde man einen schnelleren 65-nm- Prozess einsetzen, würde dies zu einer Erhöhung der Leckströme führen und damit den Einsatz insbesondere in batteriebetriebenen Anwendungsbereichen verhindern.

Bei 600 MHz erreicht der Cortex-R4X eine Rechenleistung von 960 DMIPS und hat inklusive des Speichers eine Leistungsaufnahme von ungefähr 198 mW. Der Cortex-R4X soll den „einfachen“ R4 nicht ersetzen. Die meisten Kunden wünschen sich mittlerweile synthetisierbare Cores. Einige Entwickler benötigen jedoch eine höhere Rechenleistung, als sie vom Soft-Core geliefert werden kann, oder wollen ein vorgefertigtes Makro in das Chip-Design integrieren, ohne den Aufwand der Synthese für den Core selbst betreiben zu müssen. Hierdurch können gegebenenfalls Monate an Entwicklungsarbeit eingespart werden. Die Lizenzierung des Cortex- R4X wird etwas teuer sein als beim Cortex-R4; beide Versionen sind zu 100 % software-kompatibel.

Für Intrinsity öffnet sich durch das Abkommen die Tür zu neuen lukrativen Geschäften. Die Firma nennt den Cortex- R4X einen „RTL FastCore“ – ein extistierender Prozessor, dessen RTLLogik durch die Fast14-Technologie beschleunigt wird. Mittlerweile arbeitet Intrinsity noch an anderen RTLFastCores für ARM. Offensichtlich macht die Firma erfolgreich den Schritt von einem fabless Halbleiter- Hersteller zu einem IP-Lieferanten und Design-Haus.

Core ist bedingt konfigurierbar

Was den Cortex-RX4 angeht, handelt es sich – für manche etwas überraschend – nicht um eine zu Gunsten der Geschwindigkeit „abgestrippte“ Version, sondern vielmehr um eine reichlich ausgestattet Variante. Sie wird jeweils 32 Kbyte RAM für Befehls- und Datencache, drei jeweils 32 Kbyte große Tightly-coupled-Speicher (TCM), Fehlerkorrektur-Codes (ECC) für alle Caches und TCMs, eine Speicherschutz-Einheit (MPU), die bis zu zwölf Speicherbereiche verwalten kann, 64-bit-AXI-Master und -Slave-Ports mit Parität und eine Core- Sight-Dubug-Einheit beinhalten, die bis zu acht Watchpoints und acht Breakpoints unterstützt.

Tabelle 1 zeigt empfohlene Konfigurationen für unterschiedliche Zielmärkte:

Konfigurations-Option Massenspeicher
Automotive Wireless/Bildverarbeitung
MPU nein ja (12 Bereiche)
ja (8 Bereiche)
Caches teilweise teilweise ja
Breakpoints/Watchpoints Minimum Maximum
Minimum
Parität teilweise ja nein
Tabelle 1. Durch unterschiedliche Konfigurationen kann der Cortex-R4X an die Erfordernisse der Zielmärkte angepasst werden.

Obwohl der Cortex-R4X als Makro ausgeliefert wird, ist er für unterschiedliche Kunden in gewissem Umfang konfigurierbar. Die Caches können ebenso wie jeder TCM auf 64 Kbyte erweitert werden, wodurch insgesamt 192 Kbyte Speicher möglich sind. Statt der 12-Bereichs-MPU kann auch eine kleinere 8-Bereichs-MPU geliefert werden. Ein wichtiges Leistungsmerkmal fehlt allerdings: Die FPU, die ARM später insbesondere für die Druckerund Automobil-Industrie in den Cortex- R4F integriert hat. Obwohl der Cortex- R4X für einige Automobil-Anwendungen tauglich ist, wird die Gleitkomma- Arithmetik speziell für Motorsteuerungen benötigt; ARM sieht die Rechenleistung des R4X hierfür als zu hoch an („Overkill“).

Nichtsdestotrotz ist ARM gewillt, unterschiedliche Konfigurationen des Cortex-R4X für die Kunden zu lizenzieren, die die Standardkonfiguration oder TSMCs 65LP-Prozess – aus welchen Gründen auch immer – als unakzeptabel betrachten. In diesen Fällen muss Intrinsity nach Kundenvorgabe ein unterschiedliches Makro erzeugen. Da die Design-Tools von Intrinsity nach Aussage der Firma hochgradig automatisiert sind, glaubt man, relativ schnell kleine Änderungen am Ausgangs- Makro vornehmen zu können, was immer auch „klein“ in diesem Zusammenhang heißen mag. Die Standardkonfiguration des Cortex- R4X nimmt inklusive Speicher 1,103 mm2 in Anspruch (der Core alleine 0,855 mm2).

Vergleich mit und ohne Fast14-Logik.
Elektronik 
zoom
Bild 1. Die Rechenleistung des Cortex-R4X übertrifft dank Fast14-Logik die des „normalen“ Cortex-R4 deutlich.

Das ist mehr als bei einem vergleichbar konfigurierten, größenoptimierten Cortex-R4, jedoch in etwa gleich viel wie bei einem geschwindigkeitsoptimierten Prozessor. ARM schätzt, dass eine kleinere und langsamere Konfiguration auf ungefähr 0,6 mm2 reduziert werden kann. Wie in Bild 1 ersichtlich ist, ist der Cortex-R4X wesentlich schneller als ein Cortex-R4, der in konventioneller statischer Logik für TMSCs 65LP-Prozess synthetisiert wird. Er erreicht 600 MHz 10 % unterhalb seiner nominellen Betriebsspannung von 1,2 V, die maximale Leistungsaufnahme von 340 mW wird bei 10 % Überspannung (1,32 V) erreicht. Der zulässige Temperaturbereich bewegt sich zwischen –40 °C und +125 °C. Die typische Leistungsaufnahme bei 600 MHz beträgt unter Normalbedingungen 114 mW (nur der Core) bis 198 mW (mit Speichern).

Ein großer Vorteil besteht darin, dass der Cortex-R4X seine maximale Taktfrequenz mit Transistoren erreicht, die eine normale Schwellspannung haben (Regular Threshold Voltage, RVt), während der Cortex-R4 seine ohnehin geringere maximale Taktfrequenz nur durch geschwindigkeitsoptimierte Transistoren mit reduzierter Schwellspannung (Lower Threshold Voltage, LVt) erreicht. Die LVt-Transistoren führen durch höhere Leckströme jedoch zu einem größeren Energieverbrauch. Interessanterweise ist der Cortex- R4X die höchstgetaktete ARMCore- Implementierung überhaupt, die bislang schnellste Implementierung eines Cortex-A8-Prozessors findet man mit 550 MHz in einem OMAP3-Telefon- Prozessor von Texas Instruments.

1. Teil: Fast14-Technologie beschleunigt Prozessor-Core
2. Teil: Fast14 macht den Unterschied
3. Teil: Cortex-R4X ist universell einsetzbar