Kurz vor der »Supercomputing 2022«-Konferenz hat Intel seine neue Max-Serie vorgestellt, die CPUs und GPUs umfasst, mit denen Intel auf HPC- und KI-Anwendungen zielt.
Konkret geht es bei den Produkten der Max-Serie um die bislang unter dem Codenamen »Sapphire Rapids HBM« (HBM: High-Bandwidth Memory) geführten CPUs und die »Ponte Vecchio«-GPUs, zu denen noch weitere Details bekannt gegeben wurden. Jeff McVeigh, Corporate Vice President & General Manager der Super Compute Group von Intel, erklärt, dass bei beiden Produktkategorien die bisherigen Flaschenhälse überwinden werden, sprich: bei CPUs das Problem der Speicherbandbreite und bei GPUs die Probleme in Hinblick auf die Speicherkapazität, das Portieren von Code und Refactoring.
Max Serie CPU
Die CPUs der Max-Serie sind mit maximal 56 Performance-Kernen (p-Cores) ausgestattet, die auf vier Tiles (Kacheln) verteilt sind und mithilfe der EMIB-Technologie (EMIB: Embedded Multi-Die Interconnect Bridge) verbunden sind; dazu kommen noch 20 Beschleuniger, CXL 1.1 (Compute Express Link) und diverse Schnittstellen wie PCIe 5.0. Zu den integrierten Beschleunigern gehört AVX-512 (Advanced Vector Extension), »DL-Boost« (Deep Learning Boost), DSA (Data Streaming Accelerator) und AMX (Advanced Matrix Extension). McVeigh gibt als TDB (Thermal Design Power) 350 W an und betont: »Bei diesen Prozessoren handelt es sich um die ersten und einzigen x86-CPUs mit HBM.«
Denn in den Gehäusen der CPUs sitzen 64 GB HBM2e-Speicher, also mehr als 1 GB HBM pro Core; die Speicherbandbreite liegt bei ungefähr 1 TB/s. Die Prozessoren können im sogenannten HBM-Only Mode arbeiten, wo ausschließlich der HBM genutzt wird; dafür sind keine Code-Anpassungen notwendig. Daneben gibt es noch den HBM-Flat Mode, bei dem es zwei Speicherbereiche gibt: HBM und DDR5. Allerdings müssen in diesem Modus Anpassungen an der Software vorgenommen werden, damit die Vorteile auch wirklich zur Geltung kommen können. Der dritte Modus heißt »HBM Caching«, hier fungiert HBM als Cache; in diesem Fall sind ebenfalls keine Anpassungen der Software notwendig.
Alles zusammengenommen führt zu einer deutlichen Leistungssteigerung, sowohl gegenüber den eigenen Xeon-CPUs als auch gegenüber konkurrierenden Angeboten. So erklärt McVeigh: »Vergleicht man unsere Xeon-Max-CPU mit der EPYC-7773X-CPU von AMD, dann zeigt sich, dass unsere Prozessoren bei realen Arbeitslasten im besten Fall eine um den Faktor 4,8-mal höhere Rechenleistung erreichen.« Aber selbst im schlechtesten Fall kommen die Intel-CPUs immer noch auf eine um 20 Prozent höhere Rechenleistung.
Max Serie GPU
Die GPUs der Max-Serie sind mit zu 128 Xe-HPC-Cores ausgestattet. Dazu kommen bis zu 128 GB HBM2-Speicher, bis zu 408 MB Rambo-L2-Cache (bandbreitenoptimiertes SRAM mit wahlfreiem Zugriff) und bis zu 64 MB L1-Cache; auf den L3-Cache verzichtet Intel bei Ponte Vecchio/Max Serie GPU bekanntermaßen. Der Chip umfasst 47 funktionelle Kacheln (Tiles), die mit fünf verschiedenen Prozessen gefertigt werden, plus 16 Kacheln für die thermische Abschirmung. Intel nutzt für die Fertigung des mehr als 100 Mrd. Transistoren umfassenden Chips seine EMIB- und seine Foveros-3D-Packing-Technologie. Für die Kommunikation zwischen den GPUs sind 16 Xe-Links integriert.
Intel will verschiedene Varianten der GPU anbieten:
GPU Max 1100 mit 56 Xe-Cores und RTUs (Ray Tracing Units), 48 GB HBM2e-Speicher als PCIe-Karte. Die TDP soll bei 300 W liegen. Über eine Xe-Link-Bridge können bis zu vier Karten verbunden werden.
OAM-Module gibt es in zwei Versionen. Die Max Series GPU 1350 ist die kleinere Version, sie kommt mit 112 Xe-Cores und 96 GB HBM-Speicher; die TDP liegt bei 450 W. Die Max-Series-1550-GPU verfügt über 128 Cores und 128 GB HBM-Speicher; die TDP ist mit 600 W angegeben. Beide Module sind mit der Intel-X-Link-Bridge-Technik ausgestattet, sodass bis zu acht OAM-Module verbunden werden können.
Dazu kommt noch das Datacenter GPU Max Subsystem, das mit vier OAM-Modulen ausgestattet ist. Je nachdem welche GPU eingesetzt wird, liegt der TDP-Wert bei 1800 oder 2400 W; der HBM-Speicher ist bis zu 512 GB groß.
Laut McVeigh sollen die Produkte aus der Max-Serie 2023 erhältlich sein. Bereit jetzt ist geplant, dass sie im derzeit im Bau befindlichen Aurora-Supercomputer zum Einsatz kommen sollen. Aurora ist laut seiner Aussage der erste Supercomputer, der eine maximale Rechenleistung von 2 Exaflops (doppelte Genauigkeit) überschreiten wird. Aurora wird mit mehr als 10.000 Blades ausgestattet sein, die jeweils sechs Max-Series-GPUs und zwei Xeon-Max-CPUs enthalten. McVeigh: »Damit ist Aurora das erste System, das die Leistungsfähigkeit zeigt, die sich aus der Kombination der GPUs und CPUs der Max-Serie ergibt.«
Auf der Konferenz Supercomputing 2022 stellen Intel und seine Kunden laut McVeigh mehr als 40 neue Systemdesigns von zwölf Systemanbietern vor, die Produkte der Max Series verwenden.
Was kommt als Nächstes?
McVeigh gibt auch noch Einblick in die kommende Data-Center-GPU mit dem Code-Namen »Rialto Bridge«. Die neue GPU mit bis zu 160 verbesserten Xe-HPC-Cores soll einen TDP-Wert von 800 W pro OAM aufweisen und mit Wasser gekühlt werden. Auch hier sind verschiedene Formfaktoren geplant: OAM, PCIe und Subsystem. Die GPUs sollen 2024 verfügbar werden.
Im übernächsten Schritt plant Intel eine XPU mit dem Codenamen Falcon Shores, bei dem Xe und x86-Kerne in einem Gehäuse kombiniert werden sollen. Außerdem soll es bei dieser Generation möglich sein, auch IP von Kunden zu integrieren, und zwar dann auf Basis des IDM-2.0-Modells von Intel. McVeigh abschließend: »Die XPUs bieten deutliche Verbesserungen in Hinblick auf Leistung/W, Rechendichte in einem x86-Sockel und auch in Hinblick auf Speicherkapazität sowie -Bandbreite.«