Nvidia Penta-Core-Prozessor für Mobilgeräte schlägt TI und Qualcomm

»Kai-El« heißt der Nachfolger für Nvidias Tegra-2-Prozessor und über den gibt es jetzt neue Informationen: Statt eines Quad-Core-Prozessors hat Nvidia mit einem 5ten Energiespar-Core noch eins draufgesetzt und wird den ersten Penta-Core-Prozessor für Mobilgeräte herausbringen. Dieser rechnet nicht nur mehr als doppelt so schnell wie Apples A5, sondern schlägt auch OMAP und Snapdragon.

Bislang waren wir davon ausgegangen, dass Nvidias Mobilprozessor-Nachfolger für den Tegra-2 eine Quadcore-Architektur mit vier ARM Cortex-A9-Cores darstellen würde und wie üblich in einem Low-Power-Prozess (LP) von TSMC gefertigt werden würde. Nvidia hat sich jedoch etwas ganz neues einfallen lassen: "Kal-El" besteht aus vier Hauptprozessoren, die in einem GP-Prozess gefertigt werden. Dieser generiert einerseits höhere Leckströme als der LP-Prozess (was man bei Mobilgeräten eigentlich vermeiden will), erlaubt auf der anderen Seite jedoch die Erreichung höherer Taktfrequenzen mit geringeren Versorgungsspannungen, was im Hochlast-Betrieb Energie spart.

Nvidias Lösung: Die vier Cores werden durch einen weiteren sogenannten "Companion"-Core gleichen Typs ersetzt, der jedoch in einem LP-Prozess gefertigt wird. Dieser wird maximal mit 500 MHz getaktet und kommt im "aktiven Energiesparmodus" zum Einsatz, also dann, wenn der Benutzer nicht aktiv mit dem Smartphone arbeitet, aber im Hintergrund z.B. E-Mails heruntergeladen werden. Die Idee eines separarten Energiespar-Cores ist nicht neu und wurde erstmals bei Marvells TriCore-Architektur Armada 628 eingesetzt - allerdings sind dort alle Cores imselben Herstellungsprozess gefertigt.

Nvidia nennt seine Architektur vSMP (variables symetrisches Multiprozessing). Die wichtigsten Eigenschaften sind folgende: "Companion-Core" und Hauptcores können niemals gleichzeitig aktiv sein. Die Umschaltzeit zwischen beiden Konfigurationen beträgt weniger als 2 ms und ist deswegen für den Anwender unsichtbar. Dadurch müssen Hauptcores und Energiespar-Core sich auch um keine Cache-Kohärenz kümmern. Beide teilen lediglich einen L2-Cache, der die Daten an alle Cores in gleicher Zeit liefert - was bei den schneller getakteten Hauptcores natürlich mehr Taktzyklen in Anspurch nimmt. Die Umschaltung wie auch die dynamische Spannungsversorgung und Taktzuweisung an einzelne Cores erfolgt übrigens durch spezielle Hardware und Software unterhalb des Betriebssystems und ist für das Betriebssystem unsichtbar - an diesem müssen für Kal-El keine Modifikationen durchgeführt werden.

Desweiteren wurde von der bislang von allen Herstellern genutzten individuellen Spannungsvorsorgung für die Hauptcores Abstand genommen, d.h. alle vier Hauptcores werden mit der selben Spannung, und zwar der, die der am höchsten gataktete Core benötigt, versorgt. Was auf den ersten Blick als Energieverschwendung aussieht, hat aber auch Vorteile: Man spart Spannungsregler ein, was die BOM senkt. Das entscheidene ist jedoch, wie Android mit der Hardware umgeht. Dieses setzt nämlich voraus, dass alle verfügbaren Cores vom selben Typ sind und dieselben Rechenleistung bereitstellen. Android versucht daher, die Last so symetrisch wie nur möglich auf die Cores zu verteilen, was Nvidias Architektur in die Hände spielt. Im Gegenteil: Unterschiedlich getaktete Cores können bei Android zu Problemen mit dem Scheduler führen.

In der Bilderstrecke ist ersichtlich, welche Aufgaben auf welche Cores verteilt werden. Der Energiespar-Core kommt bei Hintergrundaktivitäten wie E-Mail-Synchronisation, aber auch beim Abspielen von Audio- und Videodateien zum Einsatz. Wie das Blockdiagramm zeigt, gibt es dafür dedizierte Hardware-Blöcke, welche die Last der CPU erheblich reduzieren. Ein Hauptcore wird dann aktiv, wenn 2D-Spiele, Maps oder einfache Webseiten aufgerufen werden (letztere ohne eingebettete Videos oder Animationen) und wenn der Anwender E-Mails schreibt und versendet. Zwei Hauptcores werden parallel aktiv, wenn Webseiten mit Flash-Vidos aufgerufen werden, Video-Chats durchgeführt werden oder der Anwender zahlreiche Applikationen im Multitasking betreibt. Schließlich werden alle vier Cores für 3D-Spiele, extrem anspruchsvolle Webseiten mit vielen Videos, Animationen etc. und die Verarbeitung von Videodateien aktiviert.

Bilder: 5

Nvidias Penta-Core-Prozessor "Kal-El"

Eine bislang unbekannte Architektur integrierte Nvidia in den Tegra-2-Nachfolger: Vier ARM Cortex-A9 werden von einem weiteren Cortex-A9 unterstützt, der in einem Low-Power-Prozess gefertigt wird.

Wie ist nun das Ergebnis hinsichtlich der Leistungsaufnahme? Gegenüber dem aktuellen Nvidia-Handy-Prozessor Tegra-2 erzielt "Kal-El" in einer 40-nm-Fertigung im Energiesparmodus 28 % weniger, bei Spielen 34 % weniger, bei der Audio-Wiedergabe einer MP3-Datei 14 % weniger und bei der Wiedergabe eines HD-Videos 61 % weniger Energieverbrauch. In der folgenden Tabelle ist ein Vergleich mit TI's aktuellem Chip OMAP4 und Qualcomms Snapdragon QC8660 dargestellt. Wie die Ergebnisse des Coremark-Benchmarks zeigen, benötigt Kal-El zur Erreichung derselben Rechenleistung wie die Konkurrenz nur eine Taktfrequenz von 480 MHz für seine vier Cores, was angesichts der Tatsache, dass es sich bei OMAP und Snapdragon um Dual-Core-Chips handelt (TI und Qualcomm haben zwar schon Quad-Core-Chips angekündigt, diese werden allerdings nicht vor 2012 und damit deutlich später als "Kal-El" erscheinen) nicht überraschend ist. Fakt ist, "Kal-El" kommt bei gleicher Rechenleistung mit weniger als 40 % der Energie von OMAP und Snapdragon aus. Nebenbei bemerkt: Kal-El erreicht bei 1 GHz einen mehr als doppelt so hohen Coremark-Wert wie Apples A5-Prozessor, der im iPhone 4 und iPad 2 seinen Dienst verrichtet.

Wenn man "Kal-El" dann auch 1 GHz hochtaktet, steigt der Coremark-Wert auf rund den doppelten Wert von OMAP und Snapdragon. Durch den GP-Prozess von TSMC wird die Taktfrequenz von 1 GHz bei egringeren Spannungen erreicht als bei OMAP und Snapdragon, die beide in einem LP-Prozess gefertigt werden. Dadurch ist die Leistungsaufnahme von "Kal-El" bei doppelter Rechenleistung rund 15 % geringer als die von Snapdragon und rund rund 20 % geringer als die von OMAP.

Beim Webbrowsing, bislang einem Flaschenhals auf Mobilgeräten, wurden die Browser wie Chrome oder Firefox so angepasst, dass sie multithreading-fähig sind. bei Chrome ist z.B. jede Lasche (Tab) ein neuer Prozess, der seine eigenen Threads verwaltet. Dadurch ist eine hochgradige Parallelisierung möglich, so dass eine Multicore-Architektur tatsächlich Nutzen stiftet. In der Bidlerstrecke ist die Auslastung der vier Cores beim Laden der Webseite des Wallstreet-Journals sowie bei mehreren offenen Websseiten dargestellt. Auch der Moonbat-Benchmark, der die Ausführung von Jva-Script misst, zeigt, dass eine Quadcore-Architektur fast 50 % schneller rechnet als eine Dual-Core-Konfiguration. Man kann daher davon ausgehen, dass "Kal-El"-Handys ein deutlich schnelleres Laden von Webseiten erlaubt als die heute im Einsatz befindlichen Dual-Core-Chips.

Noch deutlicher ist der Fortschritt bei extrem stark parallelisierbaren Anwednugen wie die Grafik- oder Videoverarbeitung. Die bekannte Andriod-App Phoaf 3D Panorama beschleunigt sich gegenüber dem tegra-2 um mehr als Faktor 2 und Handbrake, eine Video-Transcoding-Anwendung, erreicht statt 18,8 Frames pro Sekunde  mit "Kal-El" jetzt 29,8 Frames pro Sekunde.

 

 ProzessorTaktfrequenzGemessene Leistungsaufnahme (mW)
Coremark-Benchmark
Nvidia "Kal-El"480 MHz5795589
Texas Instruments OMAP41 GHz15015673
Qualcomm Snapdragon QC86601,2 GHz14535690
Nvidia "Kal-El"
1 GHz126111667
Quelle: Nvidia. Die Leistungsaufnahme wurde bei der Ausführung von Coremark gemessen, wovon die System-Leistungsaufnahme abgezogen wurde, um die reinen CPU-Werte zu erhalten. Diese wurde bei einem OS-Betrieb im Leerlauf ermittelt.