Künstliche Intelligenz Welche Prozessorarchitektur eignet sich am besten?

Grafikprozessoren sind die populärste Architektur für Rechenaufgaben im Bereich Künstlicher Intelligenz. Je nach Zweck der Anwendung können aber auch andere Architekturen ihre Stärken ausspielen – und nicht immer kommt es auf die pure Rechenleistung an.

Künstliche Intelligenz (KI) ist eine Grundlagentechnologie, die viele Anwendungsbereiche umkrempelt und derzeit auf vielen Gebieten erprobt wird. Webdienste wie Alexa, Cortana oder Siri nutzen es unter anderem zur Verbesserung der Spracherkennung, Gesichtserkennung, Übersetzung oder Spamfilterung. Autonome Fahrzeuge nutzen KI zur Bilderkennung und Wegplanung. In Branchen wie Gesundheitswesen, Finanzverwaltung, Logistik, Produktion und Einzelhandel hofft man, dass dieser Ansatz wesentliche Prozesse verbessern kann.

Obwohl die Forscher seit Jahrzehnten an KI arbeiten, hat sie erst in den letzten fünf Jahren große Fortschritte gemacht, was zum Teil darauf zurückzuführen ist, dass Deep-Neural-Networks (DNNs) dank der Bündelung von Rechenpower in der Cloud in überschaubarer Zeit trainiert werden können. Anstatt manuell ein Software-Programm zu entwickeln, um beispielsweise menschliche Gesichter auf Fotos zu identifizieren, speisen Forscher einfach eine Reihe Fotos bekannter Personen in das Netzwerk ein, das sich dann so konfiguriert, dass es die Gesichter erkennt. Dieser Prozess wird als Training bezeichnet. Sobald das Netzwerk trainiert ist, kann es neue Fotos verarbeiten, um die Gesichter zu identifizieren. Dieser Bereitstellungsmodus wird als Inferenz (Schlussfolgern) bezeichnet.

Einmal Cloud und zurück

Die meiste KI-Verarbeitung findet derzeit in Rechenzentren statt. Wer beispielsweise Alexa oder Siri verwendet, dessen Anfrage wird in die Cloud weitergeleitet, wo ein Server die Sprache interpretiert und dann eine Antwort generiert, die er an das Endgerät zurückschickt. Das Verschieben von Daten in und aus der Cloud verzögert jedoch die Antwort, und der gesamte Prozess schlägt fehl, wenn die Netzwerkverbindung nicht verfügbar ist. Aus diesen und anderen Gründen (zum Beispiel Sicherheit, Datenschutz) entwickeln sich KI-Anwendungen derart weiter, dass die Datenverarbeitung lokal in Edge- und Client-Geräten wie Smartphones, Gateways, IoT-Geräten oder in autonomen Autos erfolgt.

Die KI-Verarbeitung wurde ursprünglich auf Universalprozessoren entwickelt, da dieser Prozessortyp allgegenwärtig und einfach zu programmieren ist. Mit der Zeit entdeckten die Forscher, dass Grafikchips (GPUs) eine bessere Leistung und Energieeffizienz bieten können. In jüngster Zeit sind die ersten Hardware-Architekturen entstanden, die speziell für neuronale Netze entwickelt wurden.

Diese Prozessoren sind typischerweise auf Inferenz optimiert und müssen so konzipiert sein, dass sie den Anforderungen des Zielmarkts hinsichtlich Rechenleistung, Stromaufnahme, Kosten und Baugröße entsprechen. Aus diesem Grund werden verschiedene Arten von KI-Chips für Rechenzentren, autonome Autos sowie verschiedene Endverbraucher- und IoT-Systeme benötigt.

Universalprozessoren

Universelle Prozessoren mit x86-Architektur stecken in PCs, Server und Supercomputern und führen eine Vielzahl von Softwareprogrammen aus. Wie der Name schon sagt, sind tiefe neuronale Netzwerke DNNs komplexer als die einfacheren Netzwerke, die ihnen vorausgingen, weshalb die Forscher die leistungsfähigsten Server nutzen, um diese neuen Netzwerke zu berechnen. Die am weitesten verbreiteten Prozessoren für diese Computer sind die Xeon-Produkte von Intel. Rechenzentren nutzen diese Prozessoren, um Standardprogramme oder DNNs auszuführen. Die unterschiedlichen Ausführungen der Xeon-Prozessoren mit gegenwärtig bis zu 56 Cores erlauben die Anpassung der Rechenleistung an den Bedarf.

In Erwartung der steigenden Popularität von DNNs entwickelte Intel eine Technologie namens AVX-512. Mit dieser Technik kann jede CPU 512 Datenbits auf einmal verarbeiten, achtmal so viel wie eine Standard-CPU mit 64 Bit. Diese 512 Bit können auf verschiedene Weise zugewiesen werden, zum Beispiel als 16 Single-Precision-Gleitkommawerte oder 64 Acht-Bit-Ganzzahlen. Diese Flexibilität ist wichtig, da DNN-Training typischerweise 32-Bit-Fließkommazahlen (FP32) erfordert, während Inferenz kleinere Ganzzahlenwerte (zum Beispiel 8 bit Integer) verwenden kann, um den Durchsatz und die Energieeffizienz zu verbessern.

Intels neueste Xeon-Scalable-Prozessoren, basierend auf dem Cascade-Lake-SP-Design, implementieren bis zu 56 CPU-Kerne mit AVX-512-Funktionalität. Bei einer Spitzengeschwindigkeit von 3,8 GHz verbrät das Spitzenmodell 9282 eine Leistung von 400 W (TDP). Der Chip enthält auch 77 MB Cache-Speicher, der die Schlüsselparameter für ein großes DNN enthalten kann, und er verfügt über sechs DDR4-DRAM-Kanäle, um den Rest des Netzwerks zu berechnen. Natürlich gibt es auch eine Reihe anderer Modelle an, zu niedrigeren Preisen und mit weniger Leistung und Rechenkernen.