KI-Workloads und die thermischen Anforderungen moderner Rechenzentren: Maurizio Frizziero, Vice President of Chilled Water Solutions bei Vertiv, über die neuen Anforderungen durch KI-Workloads und wie die Infrastruktur der Zukunft aussieht.
KI-Workloads verändern die Auslegung von Kühlsystemen grundlegend, indem sie sowohl die Wärmedichte als auch die Komplexität der Systeme erhöhen. Während Luftkühlung weiterhin wichtig für Restlasten und die Infrastruktur außerhalb der Server bleibt, verlagert sich der Schwerpunkt im Rechenzentrum zunehmend auf die Direct-to-Chip-Flüssigkeitskühlung. Der entscheidende Faktor ist dabei weniger die Wärmeabfuhr direkt am Chip, sondern vielmehr der Transport, die Ableitung und die Wiederverwendung großer Wärmemengen. Neue Chiller-Generationen mit ölfreier Zentrifugaltechnologie, größeren Temperaturdifferenzen und erweiterten Betriebsfenstern ermöglichen die Handhabung von Rücklauftemperaturen, die deutlich über den bislang üblichen Grenzwerten liegen. Darüber hinaus beginnen sich mit dem Übergang zu höheren Betriebstemperaturen auch die Ansätze zur Wärmeabfuhr zu differenzieren und sogenannte Trim Cooler etablieren sich als praktikable Lösung für Anlagen, die für höhere Wasser- oder Komponententemperaturen ausgelegt sind. Der kältetechnische Systempfad entwickelt sich damit zu einem Gesamtsystem, das kontinuierlich vom Chip bis hin zur Wärmerückgewinnung optimiert werden muss.
Nach seinem Master-Abschluss in Elektrotechnik an der Universität Padua und seiner Tätigkeit in der Kernfusionsforschung stieg Maurizio Frizziero 2003 in den Bereich der Rechenzentrumskühlung ein. Nach Schlüsselpositionen bei Uniflair und Schneider Electric ist er seit November 2025 Vice President of Chilled Water Systems bei Vertiv.
KI-Training führt zu extremen und sehr schnellen Lastanstiegen, während Inferenz kurze, oft schwer vorhersehbare Lastspitzen erzeugen kann. Herkömmliche Kühlsysteme, die für statische oder lineare Teillastpunkte ausgelegt sind, können auf solche dynamischen Profile kaum reagieren. Die thermische Trägheit dieser Systeme führt schnell zu instabilen Temperaturen und kann dann potenziell ein Drosseln der GPU-Leistung (GPU-Throttling) auslösen. Moderne Kühlkonzepte müssen daher schnell und proaktiv auf Laständerungen reagieren können. In Kombination mit Primärkreislauf-Designs sind sehr schnelle Reaktionen auf plötzliche Temperaturschwankungen möglich. Eine Liquid-to-Liquid-CDU sowie teillastfähige und flexible Chiller können dabei zentrale Aufgaben in der Feinregulierung übernehmen und so sicherstellen, dass die Temperatursollwerte auch bei schnellen Laständerungen stabil bleiben.
Die CDU ist das Rückgrat der hydraulischen Verteilung und sorgt für die hydraulische Entkopplung zwischen dem TCS (Technology Cooling System) in Richtung der Server und den Kreisläufen zur Wärmeabfuhr. Sie ermöglicht es, dass Server und GPUs exakt die erforderlichen Vorlauftemperaturen, die notwendige Wasserqualität sowie den benötigten Volumenstrom erhalten. Zu ihren Aufgaben gehören die präzise Temperaturregelung, die Stabilisierung des Systemdrucks durch integrierte Pumpen sowie die Aufrechterhaltung der Fluidqualität, einschließlich Korrosionsschutz und Kontrolle der Leitfähigkeit. In Konfigurationen, die heute in gemäßigten Klimazonen üblich sind, liegt die Verantwortung für die thermische Stabilität im TCS zwar bei der CDU, dennoch müssen die Kaltwassersätze weiterhin schnell verfügbare thermische Reserven sowie die optimierte Effizienz im Primärkreislauf bereitstellen. Dabei wird das Potenzial der Freikühlsysteme, die primär für die Wärmeabfuhr ausgelegt sind, so weit wie möglich genutzt, während die Kompressoren die Leistung feinjustieren, also „trimmen“.
Die Strategie zur Wärmeabfuhr in Rechenzentren der KI-Ära hängt im Wesentlichen von einer entscheidenden Variable ab: der maximalen Wassertemperatur, die vom Server benötigt wird. Diese Temperatur bestimmt, wie viel der thermischen Last allein durch Freikühlung abgeführt werden kann. Wenn Server höhere Vorlauftemperaturen tolerieren und die Umgebungsbedingungen günstig sind, wird die Wärme ohne den Einsatz eines Kompressors abgeführt. Ist dies nicht der Fall, kommt mechanische Kühlung ins Spiel. Traditionell wurde jede Komponente – also CDU, Luftführung, Chiller, Wärmeabfuhr – isoliert optimiert und für einen festen Auslegungspunkt dimensioniert. Der thermische Pfad war eine Abfolge unabhängig spezifizierter Produkte und kein dynamischer Ansatz. Trim Coller arbeiten über einen größeren Temperaturbereich als herkömmliche Systeme und stellen nur dann mechanische Kühlunterstützung bereit, wenn die Umgebungsbedingungen die Schwelle für Freikühlung überschreiten. Der Optimierungspunkt verlagert sich dabei dynamisch entlang des gesamten thermischen Pfads, weil die Effizienz des Trim Coolers in Echtzeit mit der der CDU abgestimmt werden kann, sodass beide Systeme jeweils in ihrem optimalen Betriebsbereich arbeiten können, anstatt dass eines die Defizite des anderen ausgleichen muss. Freikühlung ist dabei nicht länger ein binäres Konzept. Dank Trim Cooler können auch Betriebsstunden mit teilweiser Freikühlung genutzt werden, die früher einen vollständigen Wechsel in den mechanischen Kühlbetrieb erfordert hätten. Dadurch wird das nutzbare Freikühlfenster erweitert, ohne die erforderliche Vorlauftemperatur des Wassers zu beeinträchtigen. Diese Architektur adressiert zudem die zunehmende Unvorhersehbarkeit moderner Rechenzentren. Server-Roadmaps entwickeln sich viel schneller als die mechanische Infrastruktur. Zieldichten verändern sich. Der erweiterte Betriebsbereich eines Trim Coolers fängt diese Variablen auf, ohne dass eine Neuauslegung des Gesamtsystems erforderlich wird. Dadurch wandelt sich der thermische Pfad von einer starren, auf einen festen Betriebspunkt ausgelegten Kette zu einem flexiblen, kontinuierlich optimierten System, das heutige Infrastrukturen zuverlässig unterstützt und gleichzeitig die notwendige Anpassungsfähigkeit für zukünftige Anforderungen bewahrt.
Durch die deutlich gestiegenen Betriebstemperaturen moderner KI-Hardware wird der Einsatz von Kompressoren erheblich reduziert, auch wenn diese weiterhin erforderlich sind, um Spitzentemperaturen zu bewältigen. Ein vollständig chillerloses System bleibt aufgrund der klimatischen Bedingungen jedoch eine Herausforderung. Daher setzen die meisten Implementierungen weiterhin auf hybride Kühlarchitekturen, die Effizienz, Zuverlässigkeit und Skalierbarkeit miteinander in Einklang bringen.
Aufgrund der hohen Rücklauftemperaturen von Flüssigkeitskühlkreisläufen für KI-Anwendungen wird die direkte Einspeisung von Abwärme in moderne Fernwärmenetze möglich, allerdings primär auf Systemebene und nicht auf Ebene einzelner Geräte. Dies verbessert nicht nur die wirtschaftliche Tragfähigkeit, sondern auch den Renewable Energy Factor (REF), und erleichtert so die Einhaltung der Anforderungen des deutschen Energieeffizienzgesetzes (EnEfG), das die Nutzung unvermeidbarer Abwärme zwingend vorsieht. Technisch erfordert dies jedoch geeignete hydraulische Schnittstellen, eine stabile Temperaturgestaltung, eine zuverlässige Druckregelung sowie die Einhaltung aller Anforderungen hinsichtlich der Wasserqualität und der Materialverträglichkeit. Die Möglichkeit, Abwärme direkt zu nutzen, reduziert CO₂-Emissionen, schafft neue Geschäftsmodelle für Rechenzentrumsbetreiber und stärkt damit die Rolle von Rechenzentren als aktive Akteure innerhalb der lokalen Energieinfrastruktur.
Der Umstieg auf Kältemittel mit niedrigem Treibhauspotenzial (Low-GWP-Refrigerants) ist verpflichtend. Der Unterschied liegt jedoch darin, wie dieser Umstieg umgesetzt wird. Natürliche Kältemittel werden häufig allein aufgrund ihres natürlichen Ursprungs als grundsätzlich überlegen angesehen. Natürlich bedeutet jedoch nicht zwangsläufig ungiftig. Die Bezeichnung allein garantiert weder Sicherheit noch Effizienz oder Eignung für unternehmenskritische Umgebungen. Die eigentliche Herausforderung besteht darin, Kältemittel auszuwählen, die den sich weiterentwickelnden regulatorischen Anforderungen entsprechen, ohne die Effizienz des Kühlsystems zu beeinträchtigen. Der Wechsel zu Kältemitteln mit niedrigem GWP sollte eine Optimierungsaufgabe sein und nicht lediglich das Erfüllen einer formalen Vorgabe. Regulatorische Rahmenbedingungen erhöhen die Komplexität zusätzlich. Europa nimmt mit strengen Vorgaben zur Schonung von Wasserressourcen, zum Schutz des Grundwassers sowie zur beschleunigten Reduzierung fluorierter Kältemittel eine Vorreiterrolle ein. Mindestanforderungen an den PUE-Wert, Einschränkungen hinsichtlich der Art der Wassernutzung, Vorgaben zur Wärmerückgewinnung sowie Lärmschutzanforderungen – insbesondere in DACH-Rechenzentren – beeinflussen den Gestaltungsspielraum von Kühlsystemen je nach geografischer Region auf unterschiedliche Weise. Die Verantwortung geht dabei über die bloße Einhaltung regulatorischer Vorgaben hinaus. Sie umfasst die Etablierung neuer Best Practices, die es der Branche ermöglichen, sich in die richtige Richtung zu entwickeln, ohne dabei den thermischen Pfad zu beeinträchtigen.
Bei der Planung von KI-Rechenzentren verändern zwei Faktoren den Planungsansatz grundlegend. Zum einen die schwierige Vorhersehbarkeit zukünftiger Workloads, zum anderen die unterschiedliche Geschwindigkeit der elektrischen und kältetechnischen Planungszyklen.
Die Servertechnologie entwickelt sich in einem Tempo weiter, mit dem die mechanische Infrastruktur nicht mehr Schritt halten kann. Eine neue Chipgeneration kann innerhalb weniger Monate die Zielvorgaben für Leistungsdichte, Anforderungen an die Wassertemperatur sowie das Verhältnis von Luft- zu Flüssigkeitskühlung neu definieren. Gleichzeitig benötigen die mechanischen Systeme – Wärmeabfuhr, Rohrleitungsinfrastruktur, CDUs und Luftführungssysteme – deutlich mehr Zeit für Planung, Beschaffung, Installation und Inbetriebnahme. Beide Systeme folgen grundlegend unterschiedlichen Zeitachsen und müssen dennoch als eine Einheit funktionieren.
Diese Diskrepanz macht Flexibilität nicht zu einem Luxus, sondern zu einer planerischen Notwendigkeit. Kein Betreiber kann es sich leisten, das gesamte Wärmeabfuhrsystem bei jeder neuen Servergeneration von Grund auf neu zu planen. Die mechanische Infrastruktur muss daher von Anfang an mit ausreichenden Betriebsreserven ausgelegt werden, um Veränderungen bei Leistungsdichten, Temperatursollwerten sowie Kühlungsanteilen zwischen Luft- und Flüssigkeitskühlung ausbalancieren zu können, die zum Zeitpunkt der Planung noch nicht vollständig definiert sind.
Jeder Betreiber geht dabei unterschiedlich vor. Einige bevorzugen einen konservativen Ansatz und planen für den ungünstigsten anzunehmenden Fall. Andere konzentrieren sich auf eine möglichst aggressive Optimierung für aktuelle Workloads. Wieder andere suchen einen Mittelweg, wie etwa maximale Anpassungsfähigkeit bei akzeptabler Effizienz. Keiner dieser Ansätze ist falsch, doch alle erfordern eine Kühlinfrastruktur, die einer sich kontinuierlich weiterentwickelnden Zukunft gerecht werden muss.
Die Konsequenz für die Planung ist dabei eindeutig: Das thermische System darf nicht für einen einzigen Betriebspunkt ausgelegt werden. Es muss als flexible Plattform konzipiert werden, bei der der Bereich der Wärmeabfuhr, das Gleichgewicht zwischen Freikühlung und mechanischer Kühlung sowie die Integration entlang der gesamten thermischen Kette im laufenden Betrieb angepasst werden können – und zwar ohne bauliche Eingriffe, während sich das zugrunde liegende elektrische Lastprofil weiterentwickelt.
Die größte Herausforderung im Bestand ist es, die hohen Wassertemperaturen moderner Liquid-Cooling-Systeme mit den vorhandenen Kaltwasserkreisläufen zu synchronisieren. Da die bestehende Infrastruktur oft nicht dafür ausgelegt ist, müssen die Systeme hydraulisch entkoppelt werden – meist über CDUs oder zusätzliche Wärmetauscher. Ein strategischer Hebel ist dabei die Temperaturspreizung. Ist der Delta-T optimal eingestellt, sinkt der nötige Wasserdurchsatz. So können alte Rohrleitungen weiter genutzt und Pumpenstrom gespart werden. Auch wenn ein solches Retrofit nicht ganz die Effizienzwerte eines reinen Liquid-Cooling-Neubaus erreicht, ist es ein hochwirksamer Weg zur Modernisierung. Dabei hilft, dass sich die Redundanz in modernen Systemen zunehmend direkt auf die Rack- oder CDU-Ebene verlagert. Der sicherste Weg in die Praxis ist eine schrittweise Erweiterung: Durch die Einrichtung separater KI-Pods im bestehenden Whitespace lassen sich hohe Leistungsdichten ins RZ bringen und bei Bedarf flexibel skalieren, ohne den laufenden Betrieb zu gefährden.
Die technologischen Grundlagen für den kältetechnischen Systempfad sind bereits vorhanden. Wir verfügen heute über marktreife und skalierbare Lösungen: flexible Trim Cooler, hocheffiziente Freikühlung, umweltfreundliche Low-GWP-Kältemittel sowie durchgängige Steuerungskonzepte von der Rack-Kühlung bis zur Gebäudeaußenseite. Die Herausforderung liegt mittlerweile nicht mehr in der Verfügbarkeit dieser Technologien, sondern darin, wie perfekt sie als Gesamtsystem orchestriert werden.
Genau hier setzt Vertiv an, indem wir die Verantwortung für den gesamten kältetechnischen Systempfad übernehmen. Wir integrieren die CDU am Server-Rack direkt mit der Kälteanlage auf dem Dach und stimmen beide über intelligente Steuerungssysteme dynamisch aufeinander ab. Durch diese ganzheitliche Betrachtung und unsere enge Entwicklungspartnerschaft mit Server-Anbietern wie NVIDIA stellen wir sicher, dass die Kühlung kein reaktiver Flaschenhals ist, sondern Hand in Hand mit der neuen Hardware entsteht.
Betreiber, die bereits in einer frühen Konzeptphase ansetzen und das Wärmemanagement als strategisches Systemdesign – und nicht nur als simplen Einkaufsvorgang – betrachten, sind für die Zukunft optimal aufgestellt. Sie schaffen sich eine Basis, die nahtlos mitwächst, ohne ständige Re-Designs der Infrastruktur. Die passenden Tools und Partnerschaften existieren bereits. Unsere Entwärmungskette ist darauf vorbereitet, jede noch so extreme Leistungsdichte der kommenden Servergenerationen zuverlässig abzuführen.