ISSCC 2014 Die Leistungsaufnahme ist und bleibt der limitierende Faktor

Mark Horowitz: »Eine weitere, erfolgreiche Skalierung der Rechenleistung benötigt die Entwicklung und effektive Nutzung von neuen spezialisierten Rechen-Engines sowie die Beteiligung von Applikationsexperten.«
Mark Horowitz: »Eine weitere, erfolgreiche Skalierung der Rechenleistung benötigt die Entwicklung und effektive Nutzung von neuen spezialisierten Rechen-Engines sowie die Beteiligung von Applikationsexperten.«

Mark Horowitz, Mitbegründer von Rambus und derzeit Professor an der Stanford University im Departments of Electrical Engineering and Computer Science, betont in seiner Keynote auf der diesjährigen ISSCC: »Weiterentwicklungen im Computing-Bereich sind nicht davon abhängig, ob wir noch mehr Transistoren integrieren können, sondern vielmehr, ob wir das Problem mit der Leistungsaufnahme lösen können.«

Damit spricht er der Skalierung nicht ihre Vorzüge ab, ganz im Gegenteil. Nur sie hätte es ermöglicht, dass die Kosten für die Rechenleistung so stark gesunken sind, »dass mittlerweile in nahezu jeder Anwendung ein Computer zu finden ist. Wir leben in einer Welt umgeben von intelligenten Geräten«, so Horowitz. Und auch wenn die Skalierung in der Halbleiterindustrie nie einfach gewesen sei, wären in den letzten Jahren Probleme aufgetreten, die eine weitere Skalierung immer schwieriger gemacht und schlussendlich dazu geführt hat, »dass heute die Leistungsaufnahme zum limitierenden Faktor für die Performance wurde«, so Horowitz.

Dass die Leistungsaufnahme über die Zeit zum dringlichsten Problem der Halbleiterindustrie wurde, führt Horowitz auf zwei Faktoren zurück: Einerseits wurde bei der Skalierung die Versorgungsspannung nicht im gleichen Maße mit abwärts skaliert; zum anderen wurde die Taktfrequenz viel schneller angehoben.

Klar, mit dieser raschen Frequenzskalierung war bereits Anfang der 2000er Jahre Schluss. So änderten damals die Prozessorhersteller ihre Strategie, setzten nicht mehr auf eine Erhöhung der Taktfrequenz, sondern integrierten mehrere Prozessorkerne mit niedrigerer Taktfrequenz. Dazu kamen noch High-K-Metal-Gate, gestrecktes Silizium, die Verwendung unterschiedlicher Transistoren, dynamische Spannungs- und Frequenzskalierung usw. – und dennoch: »Alle elektronischen Geräte haben ein Energieproblem, egal ob es ein batteriebetriebenes Mobiltelefon oder ein Datenserver von Google ist.«

Wenn man sich die derzeitigen Grenzen von CMOS anschaut, ist es aus Horowitz Sicht nur natürlich, dass man nach neuen Technologien sucht, die eine weitere Steigerung der Rechenleistung zulässt, ohne die Leistungsaufnahme zu erhöhen. Solche Technologiesprünge seien ja auch nicht neu, speziell in der Computerindustrie wären ja schon diverse vollzogen worden: Von der Mechanik, über Relais, Röhren, hin zu Transistoren, Bipolar-ICs, nMOS und schlussendlich CMOS.

Aber was früher ging, hält er derzeit für unmöglich, und zwar aus einem Grund: CMOS ist einfach zu gut. »Mit CMOS können wir Halbleiter mit Millionen von Transistoren und GHz-Taktfrequenzen für unter 1 Dollar verkaufen und trotzdem noch Geld verdienen.« Es gäbe durchaus gute Ideen, das Problem bestehe vielmehr darin, dass diese Idee umgesetzt werden muss und dafür sind Investitionen notwendig. Und diese sind für eine Technologie, die mit CMOS konkurrieren will, gigantisch, denn sie erfordert Fabriken für die Fertigung, neue Tools, Entwickler, die damit umgehen können etc. Dazu kommt noch ein wirtschaftliches Problem: »Eine radikal neue Idee muss für relativ wenig Geld genutzt werden können, denn das Risiko, dass eine vollkommen neue Idee scheitert, ist hoch. Oder anders formuliert: Je größer ein Investment ist, desto kleiner muss das Risiko für den Investor sein.« Horowitz ist der Überzeugung, dass radikal neue Ideen immer nur dann erfolgreich sind, wenn sie auch vollkommen neue Märkte kreieren. »Und nur wenn diese Märkte dann auch groß werden, können die Start-ups die bestehenden Player herausfordern, wenn auch oft nur indirekt, in dem sie die Regeln im Markt verändern«, so Horowitz weiter.

Deshalb ist er überzeugt, dass CMOS-ähnliche Technologien auch in Zukunft der beherrschende Ansatz im Halbleitermarkt ist. Um also die Rechenleistung weiter zu steigern, bleibt nichts anderes übrig, als das Problem mit der Leistungsaufnahme zu lösen.

Eine weitere Parallelisierung hält Horowitz für nicht zielführend. Bereits jetzt zeige sich, dass der Zugewinn an Energieeffizienz mit noch mehr Prozessorkernen nur noch gering ist. Außerdem dürfe man nicht vergessen, dass der Energieverbrauch des Speichersystems den Energieverbrauch von effizienten Prozessoren oft jetzt schon in den Schatten stellt. Horowitz: »Untersuchungen haben gezeigt, dass bei einem 8-Core-Prozessor mit 40-nm-Strukturen mehr als 50 Prozent Energie in den L1-, L2- und L3-Caches sowie Register-Files verbraucht werden.« Außerdem müsste bei einer Power-Analyse auch der DRAM-Speicher mitbedacht werden, auch wenn er nicht auf dem Prozessor-Die sitzt. Horowitz: »Ein DRAM-Zugriff braucht um Größenordnungen mehr Energie als ein Cache-Zugriff oder eine Operation des Prozessors.« Hier wäre noch viel Arbeit notwendig, um den Energieverbrauch zu minimieren.

Nach all dem gesagten, stellt sich die Frage, welche Möglichkeiten Horowitz sieht, den Energieverbrauch zu senken? »Es gibt viele Beispiele von spezialisierter Hardware, die um 2 bis 3 Größenordnungen effizienter sind als Prozessor-basierte Lösungen.« Die Programmierbarkeit von Prozessoren koste einfach viel Energie: 70 pJ/Instruktion gegenüber wenigen pJ für eine Operation.

Applikationsspezifische Hardware, das hatten wir doch schon? Horowitz: »Programmierbarkeit bedeutet einen hohen Energieverbrauch, kundenspezifische Hardware kostet viel Geld.« Die Kombination aus beidem habe dazu geführt, dass heutige Prozessoren nicht mehr reine Prozessoren sind, sondern vielmehr SoCs, auf denen neben der CPU noch eine GPU sowie diverse Hardware-Beschleuniger sitzen. Die deutliche Zunahme von Hardware-Beschleunigern wiederum habe dazu geführt, dass man sich überlegt hat, ob es zwischen diversen Applikationen genügend Gemeinsamkeiten gibt, die die Entwicklung einer vom Anwender programmierbaren Hardware-Engine erlaubt, mit der sich die anvisierten Applikationen beschleunigen lassen. »Solche Ansätze sind in der Graphikwelt bereits umgesetzt, wo es hochgradig programmierbare Hardware-Engines für Floating-Point-Anwendungen mit paralleler Datenverarbeitung gibt«, fährt Horowitz fort. Darüber hinaus weist Horowitz darauf hin, dass die Nutzung von kurzen Integer-Zahlen (8 oder 16 Bit) deutlich energiesparender ist als das Gleitkommaformat.

Neben einer applikationsspezifischen Hardware sei es aber auch wichtig, dass die darauf laufenden Algorithmen auf Energieeffizienz getrimmt sind. Horowitz: »Ein unmodifizierter Algorithmus wird die gewünschte Energieeffizienz eines Hardware-Beschleunigers zunichte machen.« Deshalb sei es wichtig, dass Applikationsexperten mit im Boot sitzen, wenn es um die Entwicklung von energieeffizienter, applikationsspezifischer Hardware geht. Um Anwendungsexperten aber den Zugang zur Halbleitertechnik zu eröffnen, seien neue Tools erforderlich. Horowitz abschließend: »Wenn wir die Tools entwickeln, die es unseren Kunden erlauben, Teil des Hardware-Entwicklungsprozesses zu werden, dann können wir auch in Zukunft innovative und effiziente Computing-Komponenten entwickeln.«