Habana Labs KI-Trainings-Prozessor

Das »HLS-1« von Habana Labs mit acht Gaudi-Prozessoren.
Das »HLS-1« von Habana Labs mit acht Gaudi-Prozessoren.

Der neue Habana-Gaudi-AI-Training-Prozessor bietet den vierfachen Durchsatz gegenüber Systemen mit der selben Anzahl an GPUs.

Dabei lässt sich die Leistungsfähigkeit der Trainingssysteme auf Basis der Gaudi-Prozessoren fast linear skalieren: Von Systemen mit nur einem bis hin zu Hunderten von Gaudi-Prozessoren.

Außerdem ist die »RDMA over Converged Ethernet«-Funktionalität (RoCE v2) auf dem KI-Prozessor integriert. Damit lassen sich KI-Systeme über Standard-Ethernet einfach skalieren.

Zudem können die Anwender die Ethernet-Switches verschiedener Hersteller mit verschiedenen Geschwindigkeiten und einer unterschiedlichen Anzahl an Ports einsetzen, wie sie in Datenzentren ohnehin verwendet werden. Bestehende GPU-basierte Systeme beruhen im Gegensatz dazu auf proprietären System-Interfaces, so dass eine nur begrenzte Skalierbarkeit besteht und der System-Designer nur beschränkt auswählen kann.  

»Mit den neuen Produkten ist Habana schnell von Interference-Anwendungen ins Training hineingewachsen und deckt die gesamte Palette an Neuronalen Netzwerk-Funktionen ab«, sagt Linley Gwennap, Principal Analyst der Linley Group. »Als erster KI-Prozessor integriert er 100G-Ethernet-Links und RoCE-support und erlaubt es deshalb, große Beschleunigungs-Cluster auf Basis von Standard-Komponenten aufzubauen.«

Zum Gaudi-Prozessor gehören 32 GB HBM-2-Speicher. Beim Typ HL-200 handelt es sich um eine PCI-Karte, die acht  100-Gb-Ethernet-Ports unterstützt. Die Mezzanine-Card des Typs HL-205 entspricht den OCP-OAM-Spezifikationen und unterstützt zehn 100-Gb-Ethernet-Ports oder zwanzig 50-Gb-Ethernet-Ports.

Zudem hat Habana unter der Bezeichnung »HLS-1« ein System aus acht Gaudi-Prozessoren mit acht Mezzanine-Karten, PCI-Verbindern für den Anschluss an externe Hosts und für 24 100-Gbps-Eternet-Ports. So lassen sich mehrere HLS-1-Systeme in ein Standard-198-Zoll-Rack unterbringen, um zu skalieren.

Der Gaudi-Prozessor ist voll programmierbar, lässt sich auf Kundenanforderungen zuschneiden und enthält ein Tensor-Processing-Core-Cluster (TPC) der zweiten Generation. Außerdem stehen Entwicklungswerkzeuge, Bibliotheken und ein Compiler  zur Verfügung. Der SynapseAI-Software-Stack umfasst eine Kernel-Bibliothek und erlaubt es den Kunden,  auch proprietäre Kernels aufzunehmen. Habana wird ausgewählte Kunden ab der zweiten Jahreshälfte mit Mustern beliefern.

Gaudi ist nach dem Interference-Prozessor Goya der zweite KI-Prozessor, den Habana Labs über das vergangenen Jahr  auf den Markt gebracht hat. Habana liefert Goya seit dem vierten Quartal 2018.