ISSCC 2017 Details zu Power9

Die Power9-Prozessorfamilie.
Die Power9-Prozessorfamilie.

Power9 wurde bereits im Sommer letzten Jahres vorgestellt, jetzt hat IBM die ISSCC genutzt, um weitere Details über seine Power9-Prozessorfamilie bekanntzugeben, mit zum Teil beindruckenden Zahlen.

»Kognitives Computing und die Cloud-Infrastruktur benötigen flexible, verbindbare und skalierbare Prozessoren mit einer extrem großen I/O-Bandbreite«, erklärt Christopher Gonzales, Senior Engineer in der IBM Systemgroup. Genau diesen Anforderungen will IBM mit vier verschiedenen Chip-Konfigurationen gerecht werden, die sich hinsichtlich der Speicherschnittstellen, Core-Anzahl und Beschleuniger unterscheiden. Der Scale-Out-Prozessor (vertikale Skalierung) mit 24 Cores (4 simultane Threads pro Core) auf Basis des 14-nm-SOI-FinFET-Prozesses kommt mit seinen 8 Mrd. Transistoren (17 Metallisierungslagen: Kupfer) auf eine Chip-Fläche von 695 mm². Zur Kontaktierung C4-Verfahren sind insgesamt 19638 Bumps notwendig, 2359 für Signale, 7370 für Power und 9909 Ground-Pins.

Der Chip benötigt zehn verschiedene Eingangsspannungen und verfügt über 48,5 µF Entkopplungskondensatoren im Deep-Trench-Verfahren. Der Bereich mit den Cores und ihren L2/L3-Caches ist in einzelne, so genannte Quads aufgeteilt, wobei jedes Quad vier Cores plus den dazugehörigen L2/L3-Cache umfasst und einen internen Spannungsregler (iVRM) umfasst. Die iVRMs überwachen jeden Core in vier Sektoren und regeln jeden Sektor unabhängig vom anderen nach. Im Vergleich zu einer Einzelmessung konnte damit das Spannungsgefälle um 20 mV und der Durchschnittsfehler um 11 mV verbessert werden. Dank der verringerten Spannungsschwankungen können die Frequenzen innerhalb eines gegebenen Power-Budgets maximiert werden. Im Vergleich zu Power8 konnte IBM die effektive Dropout-Spannung so um 50 Prozent reduzieren. Außerdem kann jeder Core einzeln abgeschaltet werden.

Jeder Core verfügt über jeweils 32 KByte L1- Befehls- und Daten-Cache. Immer zwei Cores teilen sich einen 512 KByte großen L2-Cache, der von einem 120 MByte großen L3-Cache unterstützt wird.

IBM nutzt verschiedene Speicherzellen auf dem Chip: Der L1-Daten-Cache basiert auf Performance-optimierten 0,102 µm² großen 6T-SRAM-Zellen. Der L2-Cache auf gleichgroßen 6T-SRAM-Zellen, die aber hinsichtlich geringer Leckströme optimiert wurden. Dazu kommt noch der L3-Cache mit 0,0174 µm² große eDRAM-Zellen und 0,143 µm² 8T-SRAM-Zellen für Register-Files.

Für das Power-Management sind zwanzig Mikrocontroller auf dem Chip implementiert, die dynamisch Power und Performance anpassen. Im Vergleich zu Power8 konnte dank eines neuen Instand-On-Idle-Mode die Wakup-Latenzzeit um den Faktor 10 verbessert werden.

IBM hat die Scale-Out-Prozessoren mit enorm vielen Schnittstellen nach außen ausgestattet. Dazu zählen beispielsweise 25 GBit/s-PHYs, um NVLink 2.0 für die direkte Anbindung von Nvidia-GPUs zu unterstützen. Im Vergleich zu PCIe Gen3 ist damit die Bandbreite um den Faktor 7 bis 10 erhöht. Die Prozessoren unterstützen aber auch das OpenCAPI-Protokoll. Dazu kommen noch 48 Leitungen von PCIe Gen4 (16 GBit/s), die aber auch für ein CAPI2.0 Schnittstelle genutzt wird. Insgesamt kommt der Chip mit allen Schnittstellen auf eine Bandbreite nach außen in der Größe von 1,29 TBit/s.