Offenes Sprachmodell

NVIDIA beschleunigt die Inferenz auf Meta Llama 3

23. April 2024, 7:58 Uhr | Iris Stroh
© dpa-Bildfunk

In Zusammenarbeit mit Meta kündigte NVIDIA die Verfügbarkeit von beschleunigten Versionen von Llama 3 an, die für NVIDIA-GPUs in Cloud-, Rechenzentrums-, Edge- und PC-Umgebungen optimiert sind.

Diesen Artikel anhören

Entwickler können ab sofort auf Llama 3 unter ai.nvidia.com zugreifen, wo es als NVIDIA NIM Microservice mit einer Standard-API für flexible Bereitstellung angeboten wird.

Die Meta-Ingenieure trainierten Llama 3 auf einem Computer-Cluster mit 24.576 NVIDIA H100 Tensor Core GPUs, die mit einem NVIDIA Quantum-2 InfiniBand Netzwerk verbunden sind. Mit Unterstützung von NVIDIA hat Meta seine Netzwerk-, Software- und Modellarchitekturen für sein Flaggschiff LLM abgestimmt.

Um den Stand der Technik in der generativen KI weiter voranzutreiben, hat Meta kürzlich Pläne zur Skalierung seiner Infrastruktur auf 350.000 H100 GPUs vorgestellt.

Llama 3 bei der Arbeit einsetzen

Versionen von Llama 3, die auf NVIDIA-GPUs beschleunigt werden, sind heute für den Einsatz in der Cloud, im Rechenzentrum, im Edge-Bereich und auf dem PC verfügbar.

Entwickler können Llama 3 über einen Browser unter ai.nvidia.com ausprobieren. Llama ist als NVIDIA NIM Microservice mit einer Standard-Programmierschnittstelle verpackt und kann überall eingesetzt werden.

Unternehmen können Llama 3 mit Hilfe von NVIDIA NeMo, einem Open-Source-Framework für LLMs, das Teil der sicheren, unterstützten NVIDIA AI Enterprise Plattform ist, mit ihren Daten feinabstimmen. Benutzerdefinierte Modelle können mit NVIDIA TensorRT-LLM für die Inferenz optimiert und mit NVIDIA Triton Inference Server bereitgestellt werden.

Einsatz von Llama 3 auf Geräten und PCs

Llama 3 läuft auch auf NVIDIA Jetson Orin für Robotik- und Edge-Computing-Geräte, um interaktive Agenten wie die im Jetson AI Lab zu erstellen.

Darüber hinaus beschleunigen NVIDIA RTX und GeForce RTX GPUs für Workstations und PCs die Inferenz auf Llama 3. Diese Systeme geben Entwicklern das Ziel von mehr als 100 Millionen NVIDIA-beschleunigten Systemen weltweit.

Optimale Leistung mit Llama 3

Best Practices bei der Bereitstellung eines LLM für einen Chatbot beinhalten ein Gleichgewicht zwischen niedriger Latenz, guter Lesegeschwindigkeit und optimaler GPU-Nutzung, um die Kosten zu senken.

Ein solcher Dienst muss Token - das ungefähre Äquivalent von Wörtern für einen LLM - mit etwa der doppelten Lesegeschwindigkeit eines Benutzers liefern, d.h. etwa 10 Token/Sekunde.

Nach diesen Maßstäben erzeugte ein einzelner NVIDIA H200 Tensor Core Grafikprozessor in einem ersten Test mit der Version von Llama 3 mit 70 Milliarden Parametern etwa 3.000 Token/Sekunde - genug, um etwa 300 gleichzeitige Benutzer zu bedienen.

Das bedeutet, dass ein einzelner NVIDIA HGX Server mit acht H200 GPUs 24.000 Token/Sekunde liefern könnte, was die Kosten weiter optimiert, da mehr als 2.400 Benutzer gleichzeitig unterstützt werden.

Für Edge-Geräte generierte die Version von Llama 3 mit acht Milliarden Parametern bis zu 40 Token/Sekunde auf Jetson AGX Orin und 15 Token/Sekunde auf Jetson Orin Nano.


Lesen Sie mehr zum Thema


Das könnte Sie auch interessieren

Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu NVIDIA Corporate

Weitere Artikel zu Künstliche Intelligenz (KI)