Wichtig fürs Maschinenlernen Hardware-Beschleuniger

Bild 1: Vergleich zwischen verschiedenen Multi-Purpose-DNNs
Bild 1: Vergleich zwischen verschiedenen Multi-Purpose-DNNs

Da Maschinenlernen derzeit ein heißdiskutiertes Thema ist, wurde diesem Bereich auf der ISSCC 2018 abermals eine eigene Session gewidmet. Bemerkenswert dabei ist, dass außer dem Eröffnungsvortrag von Google (Invited Paper) alle aus dem akademischen Umfeld kommen; Unternehmensvorträge gab es keine.

Kodai Ueyoshi von der Hokkaido University hat mit QUEST einen Multi-Purpose-DNN-Inferenz-Beschleuniger vorgestellt, den die Universität zusammen mit der Keio University entwickelt hat und der auf eine Rechenleistung von 7,49 TOPS (1 bit Auflösung) kommt.

Die beiden japanischen Universitäten haben mit ihrem Ansatz zunächst ein Grundproblem gelöst, und zwar wie sie große externe Speicher mit hoher Bandbreite anbinden. Den Ansatz, DRAM mit einem DNN-Beschleuniger (Deep Neural Network) in einem 3D-Aufbau zu kombinieren, gab es schon früher. Doch laut Ueyoshi war bei den bisherigen Ansätzen die lange Latenzzeit von DRAMs weiterhin ein Problem, was die Leistungsfähigkeit einschränkte. Deshalb sind die beiden Universitäten einen anderen Weg gegangen: Sie haben die DNN-Inferenz-Engine QUEST auf acht übereinandergestapelte SRAM-Dies (96 MB) gesetzt. Der Datenaustausch zwischen den Dies erfolgt drahtlos, und zwar mit Hilfe einer induktiv gekoppelten Kommunikationstechnik („ThruChip Interface“, kurz TCI). Dafür wurden parallele TCI-Kanäle planar angeordnet, sodass QUEST über mehrere unabhängige Zugangspunkte mit hoher Bandbreite auf die gestapelten SRAMs verfügt. Die SRAMs zeichnen sich im Vergleich zu DRAMs durch eine um eine Größenordnung niedrigere Latenzzeit beim Direktzugriff aus und dank der Stapeltechnik steht auch ausreichend großer Speicher zur Verfügung. Darüber hinaus ist noch 7,68 MB On-Chip-SRAM implementiert, das beispielsweise für das On-Chip-Buffering vor AlexNet ausreicht. Das 3D-Modul mit QUEST und den acht SRAM-Dies kommt auf eine Größe von 14,3 × 8,5 mm². Für Strom/Masse wird weiterhin die TSV-Technik (Through Silicon Via) genutzt. QUEST ist mit 24 Prozessorkernen ausgestattet, die mit 300 MHz getaktet sind, wobei jedem Kern ein 4 MB großer SRAM-Speicher (32 bit) auf den übereinandergestapelten SRAM-Dies zugeordnet ist. Ein TCI-Kanal läuft mit 3,6 GHz, sodass über einen TCI-Kanal (7-Tx-/5-Rx-Spulen) eine Übertragungsrate von 9,6 Gbit/s pro Speicherbereich möglich ist, was in der Summe zu einer Datenübertragung von 28,8 GB/s pro Modul führt. Die Read-/Write-Latenz beträgt drei Zyklen, und das einheitlich über alle acht SRAMs.

Im Vergleich mit bisherigen DNN-Beschleunigern (mit LUT-basierter und linearer Quantifizierung) kommt das eine logarithmische Quantifizierung nutzende Modul beim AlexNet-Benchmark und 4 bit Genauigkeit auf eine um den Faktor 5 verbesserte effektive Rechenleistung, vgl. Bild 1.