Künstliche Intelligenz

Welche Prozessorarchitektur eignet sich am besten?

23. Januar 2020, 9:00 Uhr | Joachim Kroll
Diesen Artikel anhören

Fortsetzung des Artikels von Teil 2

FPGAs

Während benutzerdefinierte Architekturen ein großes Potenzial für die KI-Beschleunigung bieten, entwickeln Forscher weiterhin neue DNN-Algorithmen, neue Aktivierungsfunktionen und neue Datenformate. Die Implementierung einer benutzerdefinierten Architektur in ein ASIC oder ein anderes fest verdrahtetes Design kann Jahre dauern, und sobald das Design freigegeben ist, kann die Hardware nicht mehr geändert werden. Wenn die Entwickler also aufs falsche Pferd gesetzt haben oder neue Algorithmen nicht richtig eingeschätzt haben, stößt ihr Produkt am Markt womöglich auf keine Akzeptanz.

Eine Lösung ist der Einsatz von FPGAs, flexiblen Chips, die neue Designs on-the-fly implementieren können. Anstatt eine neue Architektur als ASIC zu implementieren und Monate darauf zu warten, dass der Prototyp aus der Fabrik zurückkommt, kann ein Unternehmen die gleiche Architektur in ein FPGA brennen und innerhalb von Minuten einsatzbereit sein. Darüber hinaus zahlt sich der Zeitgewinn auch aus, wenn es gilt, Fehler zu beheben oder eine kleine Verbesserung der Architektur vorzunehmen. Mit einem FPGA sind diese Änderungen innerhalb weniger Minuten vollzogen, anstatt einen neuen Chip »backen« zu müssen.

FPGAs eignen sich gut für neuronale Netze, da sie neben ihrer konfigurierbaren Logik auch zahlreiche MAC-Einheiten, sogenannte DSP-Blöcke, enthalten. So verfügen beispielsweise Intels Stratix 10 FPGAs über bis zu 5760 DSP-Blöcke, die 23 Billionen ganzzahlige Operationen pro Sekunde erzeugen können. (Stratix 10 verwendet 18-Bit-Ganzzahlen, die genauer sind als 8-Bit-Ganzzahlen.) Das FPGA kann auch konfiguriert werden, um 9 Billionen FP32-Operationen pro Sekunde zu erzeugen. Intel hat die Leistungsaufnahme des FPGAs, einschließlich Speicher, mit 125 W gemessen, wenn es diese DNN-Berechnungen verarbeitet.

Microsoft hat eine Architektur namens Brainwave entwickelt, die in Intel Stratix FPGAs instanziiert wird und die Inferenz in seinen Rechenzentren beschleunigt. Das Unternehmen nimmt wöchentlich Änderungen vor und führt sie auf Tausende von FPGAs gleichzeitig aus. Mit diesem iterativen Ansatz wurde ein benutzerdefiniertes 9-Bit-Fließkomma-Format (FP9) entwickelt und getestet, bevor man sich auf ein 8-Bit-Format (FP8) einließ, das die Leistung gegenüber dem Standard INT8 verdoppelt. Um den Anforderungen seiner Rechenzentren gerecht zu werden, hat Microsoft Brainwave auch für niedrige Latenzzeiten optimiert und so eine hohe Effizienz auch bei einer geringen Anzahl von Anfragen gewährleistet. Diese Anpassungen zeigen die Vorteile der Verwendung von FPGAs für DNNs.

Anwendungen: Autonomes Fahren und CE

Alle großen Automobilhersteller entwickeln an autonomer Fahrtechnik, die es einst möglich machen soll, sicher in einem Auto ohne menschlichen Fahrer zu fahren. Diese Technologie kann auch für Lastwagen, Flugzeuge und Drohnen angewandt werden. Einige heute verfügbare Fahrzeuge verfügen über eine teilautonome Technologie, benötigen aber eine Fahrerüberwachung. Bis 2020 wird die Serienproduktion von sogenannten Level-4-Fahrzeugen erwartet, die in einem begrenzten geografischen Gebiet und bei gutem Wetter keinen menschlichen Fahrer benötigen.

Diese Fähigkeit erfordert ausgefeilte KI-Algorithmen und Prozessoren. Autonome Fahrzeuge müssen in Echtzeit Daten von Kameras und anderen Sensoren analysieren und Orientierungspunkte (zum Beispiel Fahrbahnmarkierungen, Beschilderungen, Gebäude) sowie potenzielle Gefahren (zum Beispiel Fahrzeuge, Fußgänger, Straßenschutt) identifizieren. DNNs sind zu solch einer Bilderkennung prinzipiell fähig. Sobald die Umgebung um das Fahrzeug herum verstanden ist, müssen andere ausgeklügelte Algorithmen den optimalen Weg zum Ziel bestimmen und gleichzeitig die Sicherheit gewährleisten. Eine Kombination aus DNNs und traditioneller Software wird wahrscheinlich die Pfadplanung übernehmen.

Trotz ihrer großen Karosserien und leistungsstarken Motoren haben Automobile mehr Leistungs- und Größenbeschränkungen als ein Rechenzentrum. Kunden wollen nicht, dass das Antriebssystem den gesamten Kofferraum füllt, und die Automobilhersteller begrenzen die Leistungsaufnahme von Steuergeräten auf etwa 40 W, um eine Verringerung der Motorleistung und Laufleistung zu vermeiden. Neue Prozessoren müssen einerseits diese Einschränkungen erfüllen und gleichzeitig die Rechenleistung erbringen, die für autonomes Fahren der Stufen 4 und 5 erforderlich ist.

Im Jahr 2017 übernahm Intel Mobil-eye, den führenden Anbieter von Prozessoren Fahrerassistenzsysteme (ADAS) nach Level 2 und 3. Mobileye ist spezialisiert auf die Bildverarbeitung, das heißt, die Fähigkeit, Kamerabilder zu analysieren und Objekte zu identifizieren. Der EyeQ4-Prozessor des Unternehmens kann 2 Billionen ganzzahlige Operationen pro Sekunde verarbeiten und benötigt dazu nur 3 W – ein winziger Bruchteil der Leistung eines High-End-Rechenzentrumsprozessors. Intel empfiehlt die Kombination von zwei dieser Prozessoren mit einem stromsparenden Xeon-Chip, der die Wegplanung übernimmt; diese Kombination kann in das 40-W-Leistungsbudget eines Autos passen.


  1. Welche Prozessorarchitektur eignet sich am besten?
  2. Grafikprozessoren
  3. FPGAs
  4. Konsumgüter und IoT-Produkte

Lesen Sie mehr zum Thema


Das könnte Sie auch interessieren

Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu INTEL GmbH

Weitere Artikel zu Microsoft Deutschland GmbH

Weitere Artikel zu NVIDIA Corporate

Weitere Artikel zu Künstliche Intelligenz (KI)