Die Emulations- und Analyseplattform KAI Inference Builder von Keysight analysiert und validiert inferenzoptimierte Infrastrukturen in Rechenzentren in großem Maßstab. Dabei emuliert das System reale Workloads und analysiert die KI-Inferenz über den gesamten Stack.
Der Schwerpunkt der KI-Branche verlagert sich vom Training von LLMs (Large Language Models) auf deren Einsatz. Damit ist die Optimierung der Inferenz zu einem entscheidenden Faktor für den ROI geworden. Das Inferenzverhalten ist jedoch äußerst dynamisch und schwer nachzubilden. Herkömmliche Testmethoden wie die Erzeugung synthetischen Datenverkehrs oder GPU-Benchmarks können das latenzempfindliche Verhalten von KI-Inferenz-Workloads über Rechen-, Netzwerk-, Speicher-, Speicher- und Sicherheitsschichten hinweg nicht genau reproduzieren.
Der KAI Inference Builder (KAI steht für Keysight Artificial Intelligence) schließt diese Lücke, indem er realistische Inferenz-Workload-Muster nachbildet und branchenspezifische Nutzungsmuster modelliert, um den Einsatz von KI-Infrastrukturen, Anwendungen und Rechenzentren zu validieren. Die Plattform bietet KI-Cloud- und Hardware-Anbietern sowie Anwendungsentwicklern eine skalierbare Lösung zur Messung, Validierung und Optimierung der Inferenzleistung unter realen Bedingungen.
Zu den wichtigsten Features des KAI Inference Builder gehören:
Als Teil des KAI-Portfolios von Keysight emuliert der KAI Inference Builder KI-Inferenz-Workloads in großem Maßstab und validiert Full-Stack-Bereitstellungen unter realistischen Bedingungen, um Leistung, Skalierbarkeit und Sicherheit zu optimieren.
Statt allgemeiner Emulationen simuliert der KAI Inference Builder branchenspezifische Nutzungsmuster und LLM-Architekturen für KI-Modelle, wie sie beispielsweise in der Finanzbranche, im Gesundheitswesen oder anderen Branchen zum Einsatz kommen. So können Unternehmen das Verhalten von Infrastruktur und Anwendungen in verschiedenen Arten von KI-Rechenzentren modellieren und analysieren.
Der KAI Inference Builder bewertet Inferenz-Workflows von der Benutzeranfrage bis zur Modellantwort und hilft Teams dabei, kostspielige Nachbesserungen zu vermeiden, indem er Engpässe in den Bereichen Rechenleistung, Netzwerk und Sicherheit frühzeitig identifiziert und behebt.
Die neue Lösung von Keysight ermöglicht auch eine reine Client-Emulation, mit der sich feststellen lässt, wo im gesamten KI-Infrastruktur-Stack unter Last Leistungsengpässe auftreten. So lassen sich gezielte Optimierungen vornehmen, die eine Überdimensionierung reduzieren, Kosten senken und die Gesamteffizienz steigern.
»Inferenz ist der Schlüssel zur Realisierung des ROI von KI«, erklärt Ram Periakaruppan, Vice President und General Manager für die Network Test & Security Solutions bei Keysight. »Das kann jedoch schwierig sein, wenn die Systemressourcen hinsichtlich Kapazität und Leistung nicht optimiert sind. Der KAI Inference Builder bietet Transparenz über die reale Inferenzleistung über den gesamten Stack hinweg und ermöglicht es Kunden, Implementierungen zu validieren und zu optimieren, noch bevor die Hardware in das Rack kommt.«
Auf der NVIDIA GTC (GPU Technology Conference) – NVIDIAs Entwickler‑ und KI‑Konferenz, bei der Themen wie künstliche Intelligenz, High-Performance-Computing, Robotik, autonome Systeme und GPUs im Fokus stehen – hat Keysight bereits die Integration des KAI Inference Builder in NVIDIAs KI-Factory-Simulationsumgebungen NVIDIA DSX Air gezeigt. Die schlüsselfertige Integration generiert realistische Inferenz-Workloads in der gesamten Simulationsumgebung des Rechenzentrums von NVIDIA, sodass Betreiber die Inferenz-Infrastruktur vor dem Einsatz physischer Geräte validieren können.
»Weil KI-Rechenzentren ein bisher unerreichtes Ausmaß erreichen, hat sich die Validierung vor der Implementierung von einer Best Practice zu einer geschäftskritischen Anforderung entwickelt«, unterstreicht Amit Katz, VP of Networking bei NVIDIA. »Die Integration von KAI Inference Builder mit NVIDIA DSX Air bietet die nötige Umgebung, um Leistungsschwankungen zu beseitigen, und ermöglicht es den Partnern und Kunden der NVIDIA AI Factory, reale Inferenz-Workloads zu simulieren und Engpässe präventiv zu beheben, sodass optimierte KI-Dienste schnell auf den Markt kommen.«