Hohe TOPS-Zahlen

Klingen gut, sind aber nicht entscheidend

11. April 2022, 12:37 Uhr | Iris Stroh
Xilinx/AMD
Der Markt für KI-Beschleuniger wächst
© Xilinx/AMD

Der Einsatz von KI-Anwendungen wie Maschinenlernen, Spracherkennung, Objekterkennung nimmt zu. Entsprechend steigen auch die Anstrengungen auf der Halbleiterseite, diesen Bedarf zu adressieren, doch aus Xilinx/AMD-Sicht sollte der Entwickler genau hinschauen, um den richtigen IC auszuwählen.

Aus der Sicht von Nick Ni, Senior Director für Data Center AI and Compute Market bei Xilinx/AMD (AMD hat Xilinx vor Kurzem übernommen), geht es um Effizienz und damit die Frage, wie viel Prozent der angegebenen Leistung wirklich genutzt werden kann. In diesem Zusammenhang spricht Ni von »Dark Silicon«, ein Phänomen, das zum ersten Mal sicherlich vor vielen Jahren diskutiert wurde. Der Begriff »Dark Silicon« oder »Dunkles Silizium« kam im Zusammenhang mit immer mehr Transistoren und Wärmeabfuhr auf. Denn irgendwann war klar, dass mithilfe immer kleinerer Prozessorstrukturen zwar immer mehr Transistoren auf einem Chip integriert werden konnten, aber nicht alle gleichzeitig genutzt werden konnten, weil die Abwärme sonst viel zu hoch ausgefallen wäre. Der Teil der Transistoren, der nicht genutzt werden konnte, wurde als Dark Silicon bezeichnet.

Bezieht man sich darauf, dass vorhandene Ressourcen nicht genutzt werden können, besteht laut Ni das Problem mit Dark Silicon auch bei KI-Prozessoren für Datenzentren. Dabei geht es zwar nicht darum, dass Transistoren ungenutzt bleiben, weil eine zu hohe Wärmeentwicklung das Problem ist, sondern dass die Rechenressourcen einfach nicht effizient genutzt werden können.

Schaut man sich Entwicklungen der letzten Jahre an, zeigt sich, dass KI-Modelle immer größer und komplexer werden. Ni weist in diesem Zusammenhang auf eine höhere Auflösung hin, aber auch auf die Tatsache, dass die Anzahl der Lagen in neuronalen Netzen stetig zunehme, plus die Tatsache, dass die Anzahl der Parameter mittlerweile im Billionenbereich angekommen ist. Ein sehr anschauliches Beispiel dafür sind Sprachmodelle wie »Megatron-Turin NLG« oder »GPT-3«, die immer größer werden.

Um diese steigenden Anforderungen zu erfüllen, setzen die Hersteller von KI-Beschleuniger-Chips auf mehr Leistung, sprich: höhere TOPS-Werte. Laut Ni hätten die Hersteller von KI-Beschleunigern die TOPS-Spitzenwerte in den letzten Jahren exponentiell nach oben getrieben, um mit den Innovationen auf der Modellentwicklung standhalten zu können. Das gelte sowohl für Nvidia als auch für AMD/Xilinx oder Intel.
Das machen die Hersteller natürlich nicht ohne Grund, aber der Aufwand lohnt sich. Das macht eine Analyse von MarketsandMarkets deutlich. Das Marktforschungsunternehmen ist überzeugt, dass die Kapitalinvestitionen in KI seitens der Datenzentrenbetreiber deutlich steigen werden. Die Analysten gehen davon aus, dass die Investitionen in KI bis 2026 durchschnittlich um 36,7 Prozent pro Jahr steigen werden, und sprechen von einem Gesamtvolumen von 65 Mrd. Dollar im Jahr 2026.

Jeder, der sich nur nach TOPS umguckt, wird scheitern

Auch wenn die Spitzenwerte hinsichtlich der Operationen pro Sekunde steigen: Entscheidend ist, wie viel davon wirklich benutzt werden kann. Ni jedenfalls erklärt: »Die Hersteller von KI-Chips schrauben zwar die TOPS-Zahlen in die Höhe, aber zwei Drittel der Rechenressourcen sind Dark Silicon.« Das heißt, auch wenn Nvidia für seinen A100 einen Spitzenwert von 624 TOPS angibt, kommt nur ein geringer Teil wirklich zum Einsatz: Bei ResNet-50 sind es laut Ni gerade mal 264 TOPS, der Spitzenwert liegt bei satten 624 TOPS. Beim T4 von Nvidia fällt das Verhältnis laut Aussage von Ni noch schlechter aus: Hier liegt der von Nvidia angegebene Spitzenwert bei 130 TOPS, bei ResNet-50 können aber nur 44 TOPS genutzt werden. Ni weiter: »Das Dark-Silicon-Problem gilt selbst für die einfachsten neuronalen Netze, bei komplexeren Netzen nimmt der Anteil des Dark Silicons sogar noch zu.«

Dass besonders bei KI-Anwendungen viele Ressourcen zum Dark Silicon werden, ist laut Ni bei KI-Anwendungen nicht auf Wärmeprobleme zurückzuführen, sondern auf die Tatsache, »dass die Daten nicht schnell genug zu den Recheneinheiten gebracht werden können – ein Problem, das insbesondere fest verdrahtete Hardware hat«, so Ni weiter. Denn um jeden Core zu 100 Prozent auszulasten, müssten die L1-, L2- und L3-Caches mit den richtigen Daten gefüllt sein; wenn nur die Hälfte der Caches mit den falschen Daten gefüllt sind, führt das schon zu einem immensen Effizienzverlust. Und je komplexer die Modelle sind, desto schwieriger wird es, die Prozessoren mit den richtigen Daten zu füttern, sprich: die richtigen Daten im Cache vorliegen zu haben. Dazu kommt noch, dass die Datenmenge, die im Cache gespeichert werden muss, viel zu groß sei. Ni: »Diese Probleme haben unsere adaptierbaren Plattformen nicht, denn zum einen kann die Daten-Pipeline angepasst werden, zum anderen gilt dasselbe auch für die KI-Engines.« Aber 100 Prozent Auslastung schafft auch Xilinx/AMD nicht; diesbezüglich erklärt Ni, dass Xilinx/AMD denkt, dass die bisher erreichten 90 Prozent noch weiter nach oben getrieben werden können, wobei 100 Prozent als eher unwahrscheinlich gelten.

VCK5000

Die VCK5000-Karte wurde bereits im letzten Jahr vorgestellt, jetzt ist sie laut Ni verfügbar. Das Entwicklungs-Board basiert auf der Versal-ACAP-Architektur von Xilinx (7 nm) und zeichnet sich laut Ni dadurch aus, dass sie 90 Prozent der Rechenleistung in Standard-KI-Benchmarks auch wirklich nutzen kann, »der weltweit erste Ansatz mit ‚Zero Dark Silicon’, wodurch wir auch bei den TCO im Vergleich zu den bekannten KI-Beschleunigern einen um den Faktor 2 besseren Wert erreichen«, so Ni weiter. Das heißt, dass ein großer Prozentsatz der angegebenen Spitzenleistung mit 145 TOPS (INT8) auch wirklich erreicht werden kann. Die Karte eignet sich seiner Aussage nach als Entwicklungsplattform für die Beschleunigung von CNN- (Convolutional Neural Network), RNN- (Recurrent Neural Network) und NLP-Anwendungen (Natural Language Processing) in der Cloud und im Edge. Für die Entwicklung stehen die Vitis-Entwicklungsumgebung sowie KI-Ansätze von Partnern wie Mipsology und Aupera zur Verfügung.

Die VCK5000-Karte wurde weiter entwickelt. So konnte Xilinx laut Ni die Rechenleistung seit der Vorstellung der VCK5000-Karte deutlich erhöhen, er spricht um einen Faktor von fast 3. Möglich sei dies mithilfe von Verbesserungen im Compiler sowie im Power- und Software Design, das Ganze aber weiterhin zum gleichen Preis und mit derselben Leistungsaufnahme. Ni weiter: »Die VCK5000 ist weltweit der erste Beschleuniger für KI-Inferenzen, der in Hinblick auf Dark Silicon den Wert ‚Close to 0’ erreicht.«

Und das heißt einiges: Beispielsweise kann das Xilinx-basierte Board gegenüber Flaggschiffen wie dem A100 oder dem T4 von Nvidia laut Ni sowohl in Hinblick auf Perfomance/Watt als auch in Hinblick auf Performance/Dollar Nvidia-Ansätze deutlich übertrumpfen. Ni spricht von einem Faktor 2. Auch wenn es um Videoanalyse geht, könnte Xilinx/AMD die Konkurrenz abhängen: »Müssen mehrere Videostreams verarbeitet werden, liegen wir mit unserer Karte beim Durchsatz um den Faktor 2 höher als Nvidia«, so Ni abschließend. 


Das könnte Sie auch interessieren

Verwandte Artikel

XILINX GmbH, AMD Advanced Micro Devices GmbH, NVIDIA Corporate