Xilinx: Alveo U50 Energiesparende Beschleunigerkarte für PCIe-Server-Slots

Die erste Low-Profile PCIe Gen-4 Karte liefert deutliche Verbesserungen im Durchsatz, der Latenz und der Leistungseffizienz für kritische Workloads in Datenzentren.
Die erste Low-Profile PCIe Gen-4 Karte liefert deutliche Verbesserungen im Durchsatz, der Latenz und der Leistungseffizienz für kritische Workloads in Datenzentren.

Xilinx erweitert sein Alveo-Portfolio (Alveo U200, U250 und U280) um eine neue Karte, die laut Brian Garabedian, Senior Manager, Global Communications von Xilinx, die industrieweit erste adaptierbare Compute-, Netzwerk- und Speicher-Accelerator Karte für alle Server und Clouds darstellt.

Die Alveo U50-Karte von Xilinx ermöglichen eine Beschleunigung für Workloads in den Bereichen Financial Computing, Machine Learning, Computational Storage sowie Datensuche und -analyse. Die Alveo U50 basiert ebenfalls auf der UltraScale+-Architektur von Xilinx, sitzt in einem Low-Profile-Gehäuse und zeichnet sich durch eine geringe Leistungsaufnahme von lediglich 75 W (TDP) aus. Die Beschleunigerkarte verfügt zusätzlich zur UltraScale+-Komponente (872.000 LUTs) auch über einen HBM2-Speicher mit 8 GB und einer Bandbreite von 460 GB/s, ein QSFP28-Interface (100 Gigabit Ethernet) und PCI Express 4.0 (unterstützt auch PCIe Gen3) und eignet sich für den Einsatz »auf jedem Server, egal ob in der Cloud oder im eigenen Rechenzentrum«, so Garabedian.

Garabedian macht an mehreren Beispielen deutlich, welche Beschleunigungen mit den neuen Alveo-Karten möglich ist:

  • Speicherung (Compression/Decompression): Im Vergleich zu einem CPU-System (Intel Skylake-SP 6152 CPU @2,10 GHz, Ubuntu 16.04) kommt Alveo U50auf einen um den Faktor 20 höheren Durchsatz. »Trotz dieser hohen Beschleunigung fallen die Kosten um 33 Prozent niedriger aus«, erklärt Garabedian weiter. Auch bei Hadoop-Projekten lässt sich der Durchsatz pro CPU-Node um den Faktor 20 erhöhen, die Gesamtkosten wiederum sinken um 40 Prozent.
  • Finanz-Simulation: Bei einer Monte-Carlo-Simulation erzielt Alveo U50 im Vergleich zu einem CPU-System (Intel Xeon E5-2697 v4 und GCC 5.4.0) eine um den Faktor 20 erhöhte Leistungseffizienz, im Vergleich zu einem GPU-basierten System (Nvidia Tesla V100 16GB PCIe CUDA 10.1 und GCC 5.4.0) steigt die Leistungseffizienz noch um den Faktor 7. Das heißt mit Alveo U50 lassen sich Erkenntnisse schneller gewinnen und das bei deterministischen Latenzzeiten und reduzierten Betriebskosten.
  • Netzwerk-Beschleunigung (elektronische Handelssysteme): im Vergleich zu CPU-Systemen fällt mit Alveo U50 die Latenz um den Faktor 20 niedriger aus (unter 500 ns versus 10 µs).
  • Inferenzierungsbeschleunigung bei Deep-Learning-Anwendungen (Beispiel: Sprachübersetzung): im Vergleich zu einem Tesla 4 von Nvidia schafft Alveo U50 einen zehnfach höheren Durchsatz (übersetzte Symbole pro Sekunde), die Latenzen verringern sich um den Faktor 25 und die Leistungseffizienz steigt deutlich.
  • Beschleunigung von Data-Analytics-Anwendungen (Datenbankabfrage): bei einem TPC-H Query Benchmark liefert Alveo U50 im Vergleich zu CPU-Systemen (Intel Xeon Platinum 8260 Prozessor mit 2,40 GHz und 24 Cores) einen vierfach höheren Durchsatz pro Stunde, bei um den Faktor 3 reduzierten Betriebskosten.

Für die Entwicklung mit Alveo U50 steht eine wachsende Bibliothek von Applikationen (von Xilinx und Partnern) zur Verfügung, sowie die SDAccel-Entwicklungsumgebung und eine ML-Suite.