Graphcore IPU, die Zweite

Graphcore hat die zweite Generation seiner IPU-Plattform (Intelligence Processing Unit) für KI-Anwendungen vorgestellt, die sich durch eine deutlich höhere Rechenleistung, mehr Speicher und eine höhere Skalierbarkeit auszeichnet.

Basierend auf der neuen Generation ihrer IPU-Plattform hat Graphcore das IPU-Machine M2000 entwickelt. Dabei handelt es sich um ein Plug-and-Play-Modul im Blade-Format, das einen einfachen Einsatz der neuen Chips ermöglichen soll. Das Modul kommt laut Nigel Toon, Mitbegründer und CEO von Graphcore, auf eine Rechenleistung von 1 PetaFLOPS. Neben den neuen ICs nutzt Graphcore in diesen Modulen eine ebenfalls neue Technik, die ein einfaches Skalieren der Rechenleistung möglich macht.

Jedes Module ist mit vier der neuen IPU-Prozessoren vom Typ Colossus Mk2 GC200 ausgestattet und wird vom hauseigenen Poplar Software Stack unterstützt. Toon garantiert, dass auch die Nutzer der ersten Generation problemlos ihre bestehenden Modelle und Systeme auf den neuen Systemen laufen lassen können, mit der neuen aber »im Vergleich zur ersten Generation unserer IPUs einen Performance Boost um den Faktor 8 realisieren können«, so Toon weiter.

Mit den IPU-Machine M2000 ist es laut seiner Aussage möglich, Datenzentren mit bis zu 64.000 IPUs in einer IPU-POD-Konfiguration aufzubauen, sodass eine Gesamtleistung von 16 ExaFLOPS machbar ist.

Entwickler können mit einem einzelnen IPU-Machine-M2000-Modul starten; die Module werden direkt an bestehende CPU-Server angebunden. Laut Toon können in dieser Forum bis zu acht der Module angeschlossen werden. Für größere Systeme stehen die IPU-POD64 zur Verfügung, die 16 IPU-Machine M2000s umfassen und in einem 19-Zoll-Rack verfügbar sind.

Die Verbindung der Module und der Rack-Systeme ist dank der neuen IPU-Fabric-Technologie möglich, die laut Toon für die Kommunikation entwickelt wurde und eine dedizierte Fabric mit geringen Latenzzeiten darstellt, mit der die IPUs im gesamten Datenzentrum verbunden werden können.

Das Herzstück jeder IPU-Machine M2000 ist die neue Graphcore Colossus Mk2 GC200 IPU. Sie basiert auf einem 7-nm-Prozess von TSMC, umfasst pro Chip mehr als 59,4 Mrd. Transistoren und ist 823 mm2 groß, »was sie zum komplexesten Prozessor aller Zeiten macht«, so Toon weiter. Der GC200 ist mit 1472 separaten IPU-Kernen ausgestattet und kann bis zu 8832 separate Threads parallel ausführen. Jeder IPU-Prozessorkern ist mit neuen Fließkomma-Technologien ausgestattet.

Die IPUs unterstützen neben der 32-bit-Gleitkommaarithmetik (FP32 IEEE) auch FP16.32 (16-bit-Multiplikation mit 32-bit-Akkumulation) und FP16.16 (16-bit-Multiplikation mit 16-bit-Akkumulation). Toon betont außerdem, dass die Colossus-IPUs sich auch dadurch auszeichnen, dass sie beispielsweise stochastisches Runden in Hardware unterstützen, und das bei voller Geschwindigkeit des Prozessors. Dadurch könne die Colossus Mk2 IPU die gesamte Arithmetik in 16-bit-Formaten halten, was den Speicherbedarf reduziert, Energie beim Lesen und Schreiben einspart, Energie in Recheneinheit reduziert und trotzdem die Ergebnisse mit voller Genauigkeit liefert.

Auf jedem Mk2 GC200 sind 900 MB Ultra-Hochgeschwindigkeits-SRAM integriert, was gegenüber der Vorgängerversion eine Steigerung um den Faktor 3 bedeutet. »Damit sind die IPUs in der Lage, auch große Modelle im Speicher zu halten. Darüber hinaus ist es mithilfe der Poplar-Software möglich, dass die IPUs über die hauseigene Exchange-Memory-Kommunikation auf Streaming-Speicher zugreifen. Toon: »Dies ermöglicht die Unterstützung großer Modelle mit Hunderten von Billionen von Parametern.« Jede IPU-Machine M2000 kann mit Exchange Memory mit bis zu 450 GB zusammenarbeiten und bietet dabei eine Bandbreite von 180 TB/s. Laut Toon kommen damit die neuen IPUs im Vergleich zu GPUs auf Basis von 7 nm auf einen um den Faktor 10 erhöhte Speicherdichte und eine um den Faktor 100 erhöhte Bandbreite.