In den letzten Jahren war immer die Botschaft, dass Hardware keine Rolle mehr spielt und sich alles um Software dreht. Nun scheinen der Erfolg und das Potenzial von KI-Umgebungen plötzlich fast ausschließlich von NVIDIA-Hardware abzuhängen. Wie sieht es in der Praxis aus?
IT-Experten sind sich einig: Software braucht geeignete Hardware und leistungsfähige Hardware braucht Software, um ihr volles Potenzial zu entfalten. Software und Hardware arbeiten zusammen, um sich gegenseitig anzutreiben. Irgendwann stößt die Software jedoch an die Grenzen der Hardware – und dann ist ein Technologiesprung bei der Hardware nötig. In jeder dieser Epochen wird aber auch wiederum neue Software benötigt, um die Vorteile der neuesten Hardware zu nutzen.
Beim Datenmanagement wurde vor einigen Jahren deutlich, dass fast alle bestehenden Speicherplattformen technisch gesehen bereits Jahrzehnte alt sind. Sie wurden entwickelt und programmiert für Hardware und Technologien, die ihre beste Zeit schon lange hinter sich haben. Beispielsweise sind die meisten Speicherplattformen für Festplatten, teuren Cache-Speicher und alle dazugehörigen Teile und Komponenten ausgelegt, die aus heutiger Sicht zusätzliche Fehlerquellen darstellen. Neuere Hardware wurde praktisch nur aufgeschraubt, aber die Software konnte die Vorteile nicht nutzen und die Möglichkeiten nicht voll ausschöpfen.
Ein neuer Ansatz für eine auf anspruchsvolle Workloads wie künstliche Intelligenz, maschinelles Lernen (ML) und High-Performance Computing (HPC) ausgelegte Datenplattform setzt sowohl bei der Hardware als auch bei der Software auf die neueste Technologie: Dies bedeutet insbesondere den Einsatz von All-Flash, Containerisierung, massiver Parallelisierung und GPUs. Dieser Ansatz sieht auch vor, die Software ständig zu modernisieren für die neueste Hardware, um die verfügbaren Fähigkeiten tatsächlich auch nutzen zu können. Dies erfordert auch, sich auf wenige Hauptversionen pro Jahr zu konzentrieren, was die Möglichkeit bietet, zwischendurch Refactoring und Updates durchzuführen.
Was NVIDIA und KI betrifft, so ist mittlerweile hinreichend bekannt, dass das Unternehmen über hervorragende GPU-Hardware sowie zugehörige Software und Netzwerklösungen verfügt. Der Erfolg von NVIDIA zeigt auch, dass es nicht zielführend ist, die moderne KI-Ära mit einer Denkweise aus der Vergangenheit anzugehen. Die Tech-Community muss bereit sein, den Blick nach vorn zu richten und alle zur Verfügung stehenden neuen Technologien, Kenntnisse und Fähigkeiten zeitnah nutzen. Die meisten KI-Projekte scheitern jedoch an mangelnder Vorstellungskraft in Verbindung mit technischen Altlasten. Bei den großen KI-Erfolgsstorys ist es jedoch gelungen, die technologischen Grenzen der Vergangenheit zu überwinden und die dominierenden Akteure sind heute in der Pole-Position.
Für viele Technologieanbieter im KI-Umfeld ist daher die Zusammenarbeit mit NVIDIA oder Zertifizierung durch NVIDIA sehr wichtig. Moderne Workloads und insbesondere KI-Workloads hängen von fein abgestimmten und komplexen Stacks von Menschen, Frameworks, Hardware, Software, Infrastruktur und vielen anderen Bereichen ab. Ohne einen Zertifizierungsprozess drohen hier Wildwest-Zustände. Zertifizierungen und Integrationen sind somit der Schlüssel zur Validierung des reibungslosen Funktionierens dieser Architekturen. Die dominante Marktpräsenz von NVIDIA macht diese Zertifizierungen zu einem entscheidenden Auswahlkriterium, wenn es um KI oder KI-nahe Workloads geht. Um sich über NVIDIA-Zertifizierungen hinaus über die KI-Fähigkeiten einer Datenplattform zu informieren, können sich Entscheider über den Einsatz entsprechender Lösungen bei KI-Cloud-Anbietern ein Bild machen. Interessante Anwendungsbeispiele aus der Praxis gibt es bereits.
Die Datenplattform spielt eine entscheidende Rolle bei KI-Workloads. Moderne Grafikprozessoren und Netzwerktechnologie sind für die nötigen hohen Geschwindigkeiten und Datenmengen ausgelegt. Die Software ist hierbei entscheidend für die Orchestrierung von Daten und Anwendungen. Bei modernen Hochleistungs-Workloads wie KI geht es um viel mehr als nur um Grafikprozessoren und Hochgeschwindigkeitsnetze. Der Zugriff auf immer mehr Daten muss in seinem Verhalten konsistent sein. Die Workloads können tagelang, wenn nicht sogar wochenlang laufen, und sie tolerieren in der Regel keine Unterbrechungen, ob geplant oder ungeplant.
Es gibt zudem verschiedene Dateneigentümer, die in jeden Zugriff einbezogen werden müssen. Die Daten liegen möglicherweise in Silos, und eine weitere Schicht von Benutzern müsste sie lokalisieren und an einen zentralen Ort kopieren. Dies wäre jedoch eine Verschwendung von Zeit und Ressourcen und würde zu Problemen, zumindest zu Inkonsistenzen beim Datenmanagement führen.
Zusätzlich zu einer NVME-RDMA-Fabric (Non Volatile Memory Express über ein RDMA-Netzwerk – Remote Direct Memory Access), die durch All-Flash unterstützt wird, ist daher eine echte Multi-Tenancy-Fähigkeit (eine Instanz einer Software-Anwendung bedient mehrere Benutzerkonten) von Vorteil. Gleiches gilt für validierten RBAC- (Role-Based Access Control) und OBAC-Zugriff (OBAC: Object-Based Access Control) auf Daten, ohne dass mehrere Kopien erstellt werden müssen oder die Daten kopiert werden müssen. Auf diese Weise können Unternehmen ihre Investitionen in teure und knappe GPUs maximieren und gleichzeitig stehen ihnen die erforderlichen Kontrollmechanismen in Bezug auf Daten, Abstammung und Kontrollkette zur Verfügung, bei minimalem Overhead.
Die heutigen KI- und ML-Workloads erfordern eine Datenplattform, die einen gleichzeitigen Multi-Protokoll-Zugriff auf Daten und Objekte bietet, mit hoher Geschwindigkeit und ohne unerwartete Verlangsamung durch Storage-Tiers. Diese Plattform sollte Funktionen höherer Ordnung wie Datenbank und Daten-Engine bereitstellen, die das zugrundeliegende Wissen über die Daten und die Infrastruktur nutzen, um schneller konvergieren zu können und gleichzeitig die Plattform betrieblich einfach zu halten.
Eine weitere Herausforderung ist der steigende Energiebedarf. Der KI-Boom hat zu immensen Preissteigerungen bei der Hardware geführt, der Stromverbrauch und die damit verbundenen Energiekosten sind riesig, und täglich entsteht ein immer größerer Berg an Daten. Auf Effizienz ausgelegte Datenmanagementlösungen und Software können hier einen wertvollen Beitrag leisten, um das Problem zu entschärfen. Möglich ist dies, indem sie das aktive Kopieren von Daten, das Zeit und Energie kostet, eliminieren. Ein schneller, konsistenter Zugriff auf die Daten sorgt dafür, dass die Workloads nicht verlangsamt und somit schneller abgeschlossen werden, was insgesamt weniger Energie verbraucht. Durch die Vereinfachung der Abläufe und die Bereitstellung echter Multi-Tenancy-Funktionalität werden diese Daten »demokratisiert«.
Für Unternehmen bedeuten diese Effizienzgewinne einen geringeren Energieverbrauch, geringere Investitionskosten und einen reduzierten Platzbedarf für die Infrastruktur, während sie gleichzeitig die erforderliche Leistung aufrechterhalten. Zum effizienten Datenmanagement tragen Mechanismen wie native Tabellenplatzfunktionalität bei, die speziell für moderne Anwendungen und Flash entwickelt wurde. Durch die Möglichkeit, Daten zu speichern, ist ein einfacher Zugriff auf die Daten möglich, unabhängig davon, wo sie sich befinden.
Der Schlüssel liegt in der Erkenntnis, dass Unternehmen nicht unbegrenzt Strom verbrauchen können, Kühlungstechnik einbauen und die damit verbundenen Kosten stemmen können. Um die Dinge effizient anzugehen, ist es nötig, den Stack von A bis Z zu verstehen und aus einer Position des Wissens heraus vorzugehen.
Unternehmen, die nicht in eine eigene KI-Infrastruktur investieren können oder wollen, greifen zunehmend auf »GPU-Cloud«-Angebote zurück. Hier gilt es strategisch zu entscheiden, ob ein solches Angebot eine sinnvolle Alternative zur eigenen Infrastruktur ist. GPU-Cloud-Angebote haben sich bereits nicht nur als sinnvoll, sondern als unverzichtbar erwiesen, denn der Aufbau einer eigenen KI-Infrastruktur erfordert erhebliches Kapital, Immobilien, Energie und Know-how.
Für anspruchsvolle KI-Workloads reicht es nicht mehr aus, einfach irgendeinen GPU-Cloud-Provider zu wählen, der über große Rechenzentren und ausreichend Strom verfügt. GPU-Cloud-Provider, die sich am KI-Markt etablieren wollen, müssen ihren Kunden übergeordnete Dienste anbieten, wie z. B. einen integrierten Software-Stack, die Fähigkeit zur Integration mit verschiedenen Clouds, Mechanismen zum Schutz von Daten und zum Nachweis der Abstammung von Datensätzen. Die Wahl eines GPU-Cloud-Anbieters ist eine der wichtigsten Entscheidungen, die über den Erfolg oder Misserfolg moderner Workload-Collocation-Projekte und KI-Initiativen entscheiden können.
Hier gibt es keinen einheitlichen Entscheidungsbaum, der für alle Unternehmen passt. KI-Projektverantwortliche müssen ihren Problembereich und ihren Datenbereich verstehen und ihre Budgets einschätzen können. Danach können sie sich für einen KI-CSP (Cloud Service Provider) entscheiden, der in der Lage ist, eine Reihe von Diensten und Servicekatalogen bereitzustellen, um die Zeit bis zur Wertschöpfung durch KI zu verkürzen. Entscheidend ist, dass dieser CSP die Datengravitation versteht und weiß, wie sich diese aufheben lässt.
Genesis Cloud ist ein deutscher Anbieter von GPU-Cloud-Ressourcen für KI, ML und HPC. Der Cloudprovider stellt Leistung und Kapazität für KI-Projekte in großem Umfang sowie gleichzeitig unternehmensgerechte Datenfunktionen bereit. Das Unternehmen nutzt die VAST Data Platform, um eine breite Palette an KI-Datendiensten aufzubauen. Die Plattform konsolidiert Storage-, Datenbank- und globale Namespace-Funktionen, um Serviceprovidern Produktivitätsmöglichkeiten zu bieten. Die hochgradig automatisierte Infrastruktur mit der erforderlichen Leistung und Effizienz auf Hyperscaler-Niveau soll KI-Initiativen und die LLM-Entwicklung (LLM: Large Language Model) unterstützen. Die Verwaltung der für das LLM-Training erforderlichen Daten ist ein komplexer Data-Science-Prozess. Die Datenservices aus der Cloud vereinfachen und rationalisieren die Vorbereitung von Datensätzen, um die Modellschulung zu erleichtern. Mit der Multi-Tenancy-fähigen Datenplattform kann Genesis Cloud mehrere gleichzeitige Benutzer über die Public Cloud unterstützen. Dies ermöglicht unterschiedlichen Unternehmen den gemeinsamen Zugriff auf eine Datenbank, wodurch Genesis Cloud in der Lage ist, Kapazitätsaufträge nach Bedarf zuzuweisen und gleichzeitig eine sehr hohe Leistung zu liefern. Eine Zero-Trust-Sicherheitsstrategie gewährleistet dabei ein hohes Maß an Sicherheit für KI/ML- und Analyse-Workloads und hilft Unternehmen, die Compliance-Bestimmungen zu erfüllen und die Datensicherheit in der Cloud zu gewährleisten.
Ein anderes Beispiel ist die Universität Pisa. In den vergangenen sieben Jahren wuchs das Rechenzentrum der renommierten italienischen Hochschule auf rund 25.000 CPU- und GPU-Kerne und zwölf Petabyte an Datenvolumen, verwaltet von verschiedenen Anbietern. Da die Forschungsanforderungen insbesondere im Bereich KI immer schneller anstiegen, reichte der Status quo nicht mehr aus und die Universität suchte nach einer geeigneten, zukunftssicheren Plattform. Zur Speicherung, Verwaltung und Verarbeitung ihres wachsenden Datenbestands entschied sich die Universität Pisa ebenfalls für VAST Data. Der Campus verfügt nun über eine einheitliche Datenplattform, die nahtlos auf Hunderte von Petabytes skalierbar ist und mit der wachsenden Rechenleistung Schritt hält, und sich schnell an neue Anwendungsanforderungen anpassen lässt, wenn sich der Bedarf entsprechend entwickelt. Die Universität Pisa nutzt diese Plattform für KI-Workloads, auch zur Entwicklung von Arzneimitteln, wobei Simulationen auf einem NVIDIA DGX H100 System laufen. Die Fähigkeit der Datenplattform, sich über NVIDIA InfiniBand oder Ethernet problemlos mit DGX-Nodes zu verbinden, war ein entscheidender Aspekt für die Wahl. In Zukunft wird VAST die Grundlage für die Datenplattform bilden, wenn die Universität ihre KI-Infrastruktur mit NVIDIA Grace CPU Superchip- und Arm-basierten Systemen ausbaut.
KI aus eigenen Ressourcen ist machbar, doch die Cloud ist unverzichtbar für Unternehmen, die keine eigene Infrastruktur aufbauen können oder wollen. Selbst wenn sie eine eigene KI-Infrastruktur anstreben, können Unternehmen mit KI-Ressourcen aus der Cloud die aktuell langen Lieferzeiten für GPUs überbrücken. Die gemietete KI-Leistung ist in diesem schnelllebigen Umfeld eine gute Investition, denn in einem halben oder einem Jahr kann viel passieren, wie das Beispiel der generativen KI – Stichwort ChatGPT – zeigt.
Es ist deshalb auch sinnvoll, den Prozess der Vermietung von KI-Ressourcen einfacher zu gestalten. So können Betreiber von Rechenzentren kurzfristig als KI-Cloud-Anbieter einsteigen. Das würde die Preise für KI-Ressourcen senken und mehr Forschungseinrichtungen und Unternehmen die Chance geben, KI-Projekte zu starten. Der aktuelle Chip-Mangel muss nicht zwangsläufig die KI-Ambitionen von Unternehmen ausbremsen.
Interessanterweise haben die etablierten »Big Five« am Public-Cloud-Markt erhebliche technische Altlasten und sind immer noch dabei, ihre Infrastruktur für das moderne KI-Zeitalter umzurüsten. Irgendwann werden sie es schaffen und sich auch in diesem Bereich durchsetzen. Selbst dann wird es immer noch genug Platz für schnellere, agilere Angebote geben, die einen zusätzlichen Mehrwert bieten. Kleinere spezialisierte KI-Cloud-Provider zeigen heute schon, wie es geht. Für eine KI-taugliche Umgebung wird es auf jeden Fall auch künftig nicht reichen, auf ein paar GPUs zurückzugreifen, denn ohne eine hochleistungsfähige Datenplattform bleibt selbst die beste Hardware ineffektiv.
Autor: