1,6T-Ethernet für KI-Rechenzentren

»Jede Komponente muss auf Herz und Nieren getestet werden«

15. Juli 2025, 13:38 Uhr | Nicole Wörner
Ben Miller, Keysight: »Mit jeder neuen Generation optischer und elektrischer Datenstandards steigen die Datenraten - und damit auch die Anforderungen an die Messtechnik.« / Allison Freedman: »Wichtig ist, dass es keine Schwachstellen im Netzwerk gibt, die die Erstellung der Modelle verlangsamen oder die Verwendung der erstellten Modelle beeinträchtigen könnten.«
© Keysight Technologies

Rechenzentren für KI benötigen immer mehr Bandbreite – 1,6T-Ethernet markiert aktuell die Leistungsspitze. Allison Freedman und Ben Miller von Keysight zeigen auf, wie moderne Testlösungen den Wandel begleiten und welche Entwicklungen bei Hardware und Energieeffizienz entscheidend sind.

Diesen Artikel anhören

Markt&Technik: 1,6T ist derzeit die technologische Spitze im Netzwerkbereich. Was sind die größten Hürden, wenn ein bestehendes Rechenzentrum auf diese Technik umgerüstet werden soll?

Allison Freedman, Product Manager bei Keysight: Die Umstellung eines KI-/ML-Rechenzentrums auf 1,6T-Ethernet ist hochkomplex. Es bedeutet eine Aufrüstung der Netzwerk-Switches, der mit GPUs verbundenen RDMA-NIC-Karten, der Verbindungen, des Speichernetzwerks und möglicherweise auch des Inferenznetzwerks. Wichtig ist, dass es keine Schwachstellen im Netzwerk gibt, die die Erstellung der Modelle verlangsamen oder die Verwendung der erstellten Modelle beeinträchtigen könnten. Jeder Chip, jedes Kabel, jede Verbindung, jeder Switch und jeder Server muss sowohl auf Komponentenebene als auch auf Systemebene getestet werden. Ein konkretes Beispiel: Eine Verbindung könnte mit einer Leitungsgeschwindigkeit von 1,6T laufen, aber wenn die Vorwärtsfehlerkorrektur (FEC) Bitfehlerrate (BER) nur marginal ist, kommt es bei einem Einsatz in großem Umfang zu einer suboptimalen Leistung im gesamten Netzwerk.

Wo liegen die drängendsten Probleme im Zusammenhang mit dem Energieverbrauch in KI-Rechenzentren?

Allison Freedman: Ein großes Problem für den Energieverbrauch von Rechenzentren ist sicherlich die Kühlung. Ein weiterer großer Teil des Energiebedarfs entfällt aber auch auf Leistung, die von den Prozessorknoten und den Verbindungen zwischen ihnen verbraucht wird. Inaktive Knoten verbrauchen Energie, während sie darauf warten, dass der langsamste Knoten die Verarbeitung abschließt. Wer Engpässe im gesamten Netzwerk abbaut, minimiert die Leerlaufverluste und spart erheblich Strom. Diese zu finden und zu analysieren, ist ein Fall für uns Messtechnikhersteller. Ein weiterer Ansatz, Strom zu sparen, ist der Verzicht auf klassische steckbare Transceiver mit energiehungrigen DSPs. Stattdessen setzt man zunehmend auf integrierte oder linear steckbare Varianten. Ziel ist es, unter 1 Picojoule pro übertragenem Datenbit zu kommen – ein kritischer Wert für die Skalierbarkeit großer Rechenzentren.

Was ist bei der Validierung von 1,6T-Transceivern aus messtechnischer Sicht besonders wichtig?

Ben Miller, Product Manager bei Keysight: Mit jeder neuen Generation optischer und elektrischer Datenstandards steigen die Datenraten – und damit auch die Anforderungen an die Messtechnik. Um mindestens 120-Gbaud-PAM4-Signale messen zu können braucht man ein Abtastoszilloskop mit einer ausreichend hohen Bandbreite und einer schnellen Taktrückgewinnung. Ein weiterer Faktor ist eine ausreichende Messmarge für präzise TDECQ-Messungen, die immer geringere Rauschwerte (<15 µW) und Jitter (<90 fs) erfordern. Sobald die Produktion von 1,6T-Transceivern anläuft, braucht die Industrie automatisierte Fertigungstestlösungen mit hoher Messgeschwindigkeit – aber ohne Abstriche bei der Genauigkeit. Nur so lassen sich große Stückzahlen zuverlässig prüfen.

Wie kann ein Messtechnikhersteller dazu beitragen, Energieverbrauch und -management in großen KI-Rechenzentren zu optimieren?

Allison Freedman: Um unter anderem den Energieverbrauch in KI-Rechenzentren realistisch zu bewerten, haben wir das Tool Keysight Data Center Builder entwickelt. Es emuliert typische Workloads, um Leerlaufzeiten von GPUs zu vermeiden und den Zeitaufwand für manuelle Konfigurationstests zu reduzieren. Es ermöglicht schnelle Szenariotests und „Was-wäre-wenn“-Analysen, um die energieeffizientesten Strategien für die Verteilung von Rechenleistung und Workloads zu ermitteln. Eine intelligentere Lastverteilung, weniger Überprovisionierung und bessere Informationen zu Thermik und Architektur unterstützen Entwickler beim Design und Betrieb von Rechenzentren, die weniger Strom verbrauchen und gleichzeitig die Leistung aufrechterhalten – was letztlich die Effizienz und Nachhaltigkeit über den gesamten Lebenszyklus hinweg verbessert.

Wohin geht die Reise bei der Weiterentwicklung der KI-Infrastruktur?

Allison Freedman: KI-Anwendungen verlangen nicht nur schnellere Hardware, sondern auch eine engere Verzahnung von Software und Hardware. Zudem geht der Trend zu hochspezialisierten Chipsätzen, GPUs, Netzwerkinfrastrukturen und neuen Architekturen speziell für Machine-Learning- oder Inferenz-Netzwerke, um die Software in diesen Netzen besser zu unterstützen. All das zielt darauf ab, bestimmte KI-Workloads effizienter zu machen. Natürlich besteht auch ein wachsender Bedarf an Benchmarking und gezielten Optimierungen auf allen Ebenen, sonst bleiben teure Investitionen unter ihren Möglichkeiten.

Was müssen die kommenden Generationen von Halbleiterchips und optischen Komponenten können, um den Bedarf an höheren Bandbreiten und schnelleren Verbindungen zu decken?

Ben Miller: Es laufen aktuell mehrere Entwicklungen parallel. Viele Halbleiterhersteller arbeiten an ASICs mit schnelleren SERDES. Die Entwicklung des 51,2T-Switch-Chips mit 200 Gigabit pro Lane hat vor zwei Jahren den 1,6T-Boom ausgelöst, und nun sind die Rechenzentren endlich so weit, dass sie ihre Netzwerke auf 1,6T mit 200-Gb/s-Lanes aufrüsten. Es ist wahrscheinlich, dass Chip-Hersteller auch daran arbeiten werden, die Anzahl der Lanes oder die Lane-Geschwindigkeiten für einen 102-T-Switch-Chip zu erhöhen. Gleichzeitig kommen gerade erst 1,6T-Transceiver auf den Markt, deren Implementierung aber noch einige Jahre dauern wird. Einige Unternehmen arbeiten bereits an optischen Lane-Chip-Transceivern mit 448 Gb/s, die 3,2T-Netzwerke ermöglichen sollen. Noch ist allerdings unklar, ob man dafür weiterhin PAM4 nutzt oder auf höhere Modulationsverfahren umsteigen muss, um die Datenraten zu erhöhen.

Die Fragen stellte Nicole Wörner. 


Lesen Sie mehr zum Thema


Das könnte Sie auch interessieren

Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Keysight Technologies

Weitere Artikel zu Messgeräte

Weitere Artikel zu Künstliche Intelligenz (KI)