IDF 2011 Tag 3 Intel-CTO Justin Rattner zeigt Quake mit einer Solarzelle

Intel-CTO Justin Rattner kopierte den Look seines Kollegen Moody Eden - sieht Rattner mit Mütze wirklich besser aus?
Intel-CTO Justin Rattner kopierte den Look seines Kollegen Moody Eden - sieht Rattner mit Mütze wirklich besser aus?

Die letzte Keynote auf dem IDF gehört traditionsgemäß CTO und Forschungschef Justin Rattner. Seine Themen waren Manycore-Architekturen, ein Forschungschip, der mit nur 10 mW Leistung auskommt und eine LTE-Basisstation nur auf Basis eines Desktop-PCs.

Vor 5 Jahren führte Intel mit dem Core 2 Duo den ersten Multicore-Prozessor ein. Geht es nach Justin Rattner, werden in der Zukunft auch Standard-Anwendungen wie Spiele oder Video-Bearbeitung on Many-Core-Architekturen profitieren. 10 oder 100 Cores in einem Prozessor sind seiner Ansicht nach die Zukunft. Intels nennt dies Many-Integrated-Core-Archtitektur (MIC). Im nächsten Jahr werde es die ersten Produkte mit MIC-Architektur geben: Als erstes kommt ein Manycore-Chip mit dem Codenamen Knights Corner auf den Markt, sagte Rattner.

Ein Extrembeispiel zeigte dr Teilchenforscher Andrzej Nowak vom CERN, der europäischen Organisation für Kernforschung, einer Großforschungseinrichtung bei Meyrin im Kanton Genf in der Schweiz. Mit den Teilchenbeschleunigern des CERN wird die Zusammensetzung der Materie erforscht, indem Teilchen fast auf Lichtgeschwindigkeit beschleunigt und zur Kollision gebracht werden. Mit einer Vielzahl von unterschiedlichen Teilchendetektoren werden dann die Flugbahnen der in den Kollisionen entstehenden Teilchen rekonstruiert. Daraus lassen sich die Eigenschaften der kollidierten und neu entstandenen Teilchen bestimmen. Dies ist mit enormem technischem Aufwand für den Betrieb und mit extremen Rechenleistungen zur Datenauswertung verbunden. Teile der Beschleunigeranlagen sind unter anderem das Super Proton Synchrotron (SPS) für die Vorbeschleunigung und der Large Hadron Collider (LHC; Großer Hadronen-Speicherring) für die eigentlichen Experimente.

Der Teilchenbeschleuniger löste die Saturn-V-Rakete als größte jemals vom Menschen gebaute Maschine ab und nutzt zur Auswertung der von unzähligen Sensoren gelieferten Daten unfassbare 250.000 Intel-Cores. Die Datenmenge beträgt 15-25 Petabytes pro Jahr, das ist eine Zahl mit 15 Nullen.

Aber auch die 250.000 Cores scheinen noch zu wenig für die Suche nach dem Higgs-Teilchen zu sein, das CERN fordert noch mehr Cores. Dazu sagte Rattner, der nach eigenen Angaben in der letzten Nacht schlecht geschlafen hatte, da er Angst hatte, in einem schwarzen Loch zu verschwinden: „Wenn Ihr die braucht, bauen wir sie“.

Seine Behauptung, das man „Ninja-Programmierer“ nicht mehr brauche, da die Parallelprogrammierung für Entwickler wie „Sie und mich“ einfacher denn je sei, stieß allerdings bei manchem Zuhörer – vermutlich aus eigener Erfahrung – auf Skepsis.

Als nächstes zeigte Rattner „River Trail“. Dahinter verbirgt sich eine Erweiterung zur an sich sequentiellen Programmiersprache Java, um diese für die Parallelprogrammierung zu öffnen und damit Web-Applikationen schneller zu machen. Rattner führte eine 3D-Strömungssimulation (N-Body) innerhalb eines Firefox-Browsers vor: Als einzelner Thread kann die Anwendung drei Frames pro Sekunde darstellen, parallel auf den vier Cores eines aktuellen Core-i7 der Sandy-Bridge-Architektur waren 45 Frames pro Sekunde mit bedeutend dichterer und schnellerer Visualisierung zu sehen. Die Demo zeigte somit eine Geschwindigkeitsverbesserung um Faktor 15.

Wenig Freude dürfte der nächste Punkt in Rattners Keynote vor allen Dingen den Herstellern von High-End-FPGAs, Altera und Xilinx, sowie den Herstellern von DSPs bereitet haben. Rattner zeigte nämlich eine vollständige LTE-Basisstation auf einem Desktop-PC mit einem aktuellen Core-i7-Prozessor der Sandy-Bridge-Architektur und dazugehöriger Software, um so teure Telekommunikationsknoten zu ersetzen. Die Funksignale werden lokal digitalisiert und über ein Glasfasernetz zu Rechenzentren zur Verarbeitung geschickt. Vektorengines verhalten sich dazu wie DSPs bzw. FPGAs.

Treiber dieses Projektes ist der weltgrößte Mobilfunkprovider, China Mobile. Schon 2012 Jahr starten die Chinesen ihren ersten Feldversuch. Offensichtlich ist es Intel gelungen, die komplette traditionelle Hardware durch einen Allzweck-Prozessor nebst Software abzulösen. Auch Software-Defined-Radio dürfte mit dieser Architektur leichter als bislang realisierbar sein.

Highlight der Keynote war einmal mehr das Thema Energieeffizienz. Entscheidend sind solche Fortschritte vor allem auch im Bereich Hochleistungsrechnen (High Performance Computing). Würde man die in den nächsten zehn Jahren angestrebten Exascale-Supercomputer auf Basis aktueller Technik bauen, würde der Energiebedarf in den MW-Bereich steigen. Ziel ist daher eine signifikante Senkung um den Faktor 100 bis 2018 und eine 300 mal höhere Energieeffizienz innerhalb der nächsten zehn Jahre. Während ein System mit 100 GFLOPS Rechenleistung heute noch rund 200 W benötigt, soll dies laut Rattner 2018 mit 2 W oder weniger möglich sein. Anders formuliert: Für jedes FLOP Rechenleistung sollen dann nur noch 20 pJ benötigt werden. Wie soll das gehen? Rattner hatte dazu einen Forschungsprozessor mitgebracht.

Claremont, so der Codename, basiert auf der Architektur des ersten Pentium - nur, dass dessen Transistoren auf extremes Stromsparen getrimmt wurden. Bei seiner Vorführung wurde der Prozessor wie schon in der Keynote von CEO Paul Otellini per Solarzelle gespeist - der Rest des PCs wird bei diesem System stets von einen Neztteil versorgt -, aber er durfte mehr Leistung aufnehmen. Die genauen Werte, wie auch die Taktfrequenzen, verriet Intel auch diesmal nicht. Aber alleine schon der Rahmen der Leistungsaufnahme ist erstaunlich: Claremont arbeitet mit weniger als 10 mW. Zum Vergleich: Diese 10 mW liegen noch unter der Leistungsaufnahme eines Atom-Prozessors im Standby-Modus (S3). Statt nur einer Animation einer Katze, wie bei Otellinis Keynote, konnte die CPU nun parallel das Spiel Quake in seiner Windows-Version (WinQuake) in einem Fenster ausführen. Dieses Spiel war 1996 ein Hardwarefresser, heute läuft es auf einem Prozessor mit weniger als 10 mW.

Ziel der Vorführung war die Skalierfähigkeit der Transistoren zu belegen. Der Clou an Claremont ist nämlich, dass die Transistoren auch noch in einem engen Bereich um ihre Schwellenspannung arbeiten können. Intel nennt die Technik daher auch "near threshold voltage" (NTV). Die Problematik ist, das mit sinkenden Versorungsspannungen die Schaltschwelle durch Rauschen immer schwieriger zu finden ist. Ein Unterschied von 400 mV und 1 V ist noch groß, sinkt aber die Versorgungsspannung auf nur noch 500 mV, wird das ganze schon kritischer.

Wie Rattner betonte, wird aus dem in einem 22-nm-Prozess gefertigten Claremont kein Produkt. Die noch nicht näher beschriebene Tranistorbauweise des Forschungschips soll aber für mobile Geräte, die dann auch per Solarzelle betrieben werden können, weiter entwickelt werden. Auch massiv parallele Anwendungen in Rechenzentren könnten von sehr vielen sparsamen Kernen profitieren, so Justin Rattner.

Neben der Entwicklung des Chips an sich war auch das richtige Mainboard dafür nicht leicht zu finden.  Das Asus P55TP2P4 sei letztlich gewählt worden, weil sich davon recht viele Exemplare beschaffen ließen, unter anderem per Ebay. Da auch das Mainboard mit geringerer Spannung als vorgesehen läuft, war eine große Auswahl nötig, um die zu finden, die mit dieser kleinen Versorgungsspannung am besten funktionieren.

Bilder: 18

IDF 2011 - Keynote von CTO Justin Rattner

Trditionell hält Justin Rattner die Abschluß-Keynote eines jeden IDF. Highlight war ein Energiespar-Forschungschip, der mit 10 mW auskommt.

Letzter Punkt von Rattners Präsentation war einmal mehr das Thema Speicher, genauer gesagt DRAM. Anfang des Jahres stellte Micron das „Hybrid Memory Cube DRAM“ vor. Ganz rudimentär handelt es sich dabei um eine dank TSV-Technologie in die dritte Dimension gebaute Alternative zu DRAM-Modulen, die gleich mehrere entscheidende Vorteile bietet. Auf dem IDF stellte Justin Rattner nun einen Prototypen vor.

Der Stapel besteht aus acht DRAM-Schichten, die mit TSV-Verbindungen direkt auf einem Steuerungschip aufgesetzt werden.  Die bisher erst selten in der Großserientechnik angewandten Through-Silicon Vias (TSVs), also vertikale Duchkontaktierungen zwischen den einzelnen Siliziumchips (Dice) des DRAM-Stapels, ermöglichen wegen der hohen Zahl an Kontakten und sehr kurzen Leitungspfaden  enorm hohe Datentransferraten, sofern man die thermischen Probleme in den Griff bekommt – schließlich schlucken hoch taktende DRAM-Chips auch viel Energie. Solch ein „Stapel-RAM“ ist an sich nicht neu und wird zum Beispiel schon von Samsung in speziellen RDIMMs eingesetzt. Der On-Chip-Controller ist in dieser Form bisher allerdings noch nirgends zu finden und soll für den enormen Schub in Sachen Leistung sorgen. Der Logikchip, also eine Kommunikationseinheit, die unterste Lage des Chip-Stapels. Ein HMC kann mit dem Host-Prozessor sowie auch anderen HMCs kommunizieren.

Der wichtigste Vorteil ist dabei eine deutlich höhere Datenübertragungsrate, als sie Speichermodule liefern können. So gibt Micron für den 512 MB großen Prototypen eine Datenübertragungsrate von 128 Gigabyte pro Sekunde an. Ein 4 GB großes DDR3-1333-Modul ist im Gegensatz dazu mit 10,66 GB/s deutlich im Hintertreffen. Darüber hinaus ist aber auch der Strombedarf der platzsparenden Bausteine bezogen auf die Übertragungsrate deutlich niedriger. Micron gibt für den Hybrid Cube 62,23 Milliwatt pro GB/s an, während das oben beschriebene Speichermodul auf 431,83 Milliwatt kommt.

Durch eine Abstraktion des Speicherzugriffprotokolls von der eigentlichen DRAM-Technik soll es möglich sein, ohne größere Veränderungen am HMC-Konzept auch neue, schnellere DRAM-Generationen einzuführen.  Theoretisch sollen 3,2 Milliarden 32-Byte-Requests pro Sekunde möglich sein, allerdings je nach Datentransferrate des externen HMC-Links in der Praxis weniger – nämlich 2,3 Gigaoperationen (GOps) bei 128 Gbyte/s und 2,9 GOps bei 160 Gbyte/s. Bei 64-Byte-Zugriffen – das ist die typische Cache Line Length aktueller Prozessoren – auf zufällig verteilte Adressen (Random) soll HMC 75 Prozent der maximalen Datentransferrate erreichen. Laut Micron beträgt dieser Anteil bei DDR3 bloß 29 Prozent bei einer Burst-Length von 8 (BL 8, also 64 Byte bei einem 64-Bit-/8-Byte-DIMM) und liegt bei DDR4 oder gar GDDR5 noch niedriger.

Bei moderneren DRAM-Varianten sinkt der Wert zwar deutlich, das sollte aber ebenso für einen auf aktueller DRAM-Technologie basierenden Hybrid Cube gelten. Erste Anwendungen soll es nach wie vor erst 2013 im Enterprise-Bereich geben.

Beendet hat Rattner seine Keynote mit dem Hinweis, dass die heutigen Grenzen nicht von der Technologie, sondern lediglich der Vorstellungskraft der Menschen gesetzt werden.