Schwerpunkte

ISSCC 2020

Aktiv, nicht passiv!

28. Februar 2020, 08:27 Uhr   |  Iris Stroh


Fortsetzung des Artikels von Teil 1 .

Blick in die Zukunft

Die 3D-Plug-IPs für eine energieeffiziente Inter-Layer-Kommunikation gibt es in zwei Varianten: asynchron und synchron. Für die synchrone Version ist eine Datenübertragungsrate von 1,2 Gbit/s/Pin angegeben, der Energieverbrauch mit 0,59 pJ/bit. Damit ergibt sich eine Bandbreitendichte von 3,0 Tbit/s/mm2. Die im aktiven Interposer integrierten SCVRs ermöglichen eine DVFS-Funktionalität (Dynamic Voltage and Frequency Scaling) und eine höhere Energieeffizienz und minimieren Probleme mit dem Spannungsabfall. Es sind keine externe passiven Komponenten notwendig, sondern lediglich On-Chip-CAPs (MOS+MOM+MIM).

Das CEA-Leti hat einen Vergleich mit einem digitalen LDO anstelle des integrierten SCVR durchgeführt: Die Nutzung von LDOs mit einer Eingangsspannung von 2,5 V würde zu einer um den Faktor 2 höheren Leistungsaufnahme führen. Um bei diesem Ansatz die Verluste zu reduzieren, müsste die Eingangsspannung reduziert werden; dann wären aber mehr Power-Pins notwendig und es würden verstärkt Probleme mit dem Spannungsabfall entstehen. In der Summe kommt das Modul auf eine Leistung von 220 GOPS für alle 96 Cores bei 115 GHz; die beste Energieeffizienz ist mit 9,6 GOPS/W (Coremark) bei 246 MHz und 0,6 V erreicht.

Mit Blick in die Zukunft sollen sich zukünftige Entwicklungsarbeiten beispielsweise mit der Die-to-Wafer-Hybrid-Bonding-Technologie befassen, die dichtere 3D-Verbindungen mit besseren elektrischen, mechanischen und thermischen Parametern zulässt und ultradichte, energiearme parallele Schnittstellen ermöglicht. Längerfristig will das CEA-Leti auch die Photonik-Interposer-Technologie als 3D-basierten photonischen Chiplet-Ansatz untersuchen, der eine photonische Kommunikation mit niedriger Latenz, hoher Bandbreite und hoher Energieeffizienz ermöglichen soll.

Als weiteres Highlight der Prozessor-Session gilt ein Vortrag von Samsung Electronics, in dem ein mobiler Applikationsprozessor (AP) in 7-nm-Technologie vorgestellt wurde. Ziel der Entwicklung war, die steigenden Ansprüche der Smartphone-Nutzer (bessere Gaming-Erfahrung, Multimedia-Erfahrung, längere Batterielaufzeit etc.) mit den beschränkten Batteriekapazitäten von Mobiltelefonen in Einklang zu bringen – sprich: High Performance in Kombination mit Low Power. Der 7-nm-Exynos-AP ist mit drei verschiedenen CPU-Clustern (groß, mittel und kleine CPUs) ausgestattet, um eine leistungseffiziente Architektur zu verwirklichen; dazu kommen noch eine NPU und eine GPU. Insgesamt sind acht CPU-Kerne integriert: zwei große Cores (M4 mit 2,73 GHz), zwei Mittelklasse-Cores (ÖCA75 mit 2,4 GHz) und vier kleine Cores (CA55 mit 2,0 GHz), plus L1-, L2- und L3-Caches.

Alle Cores sind über einen kohärenten Interconnect verbunden. Samsung geht davon aus, dass in den meisten User-Szenarien die Hauptarbeitslast von den Mittelklasse-CPUs erledigt werden kann, was sich positiv auf die gesamte Leistungsaufnahme auswirkt. Die NPU ist mit 1024 MACs ausgestattet, die mit bis zu 933 MHz getaktet sind. Die NPU arbeitet mit einem 8-bit-Festkommaformat mit kanalweiser Quantisierung. Alle ReLU-Aktivierungsfunktionen (Rectifier Linear Unit) werden parallel ausgeführt. Um die Effektivität und Leistungsfähigkeit zu erhöhen, werden Null-Gewichte ausgelassen. Außerdem ist eine HWACG-Funktion (HW Automatic Clock Gating) implementiert, mit der die Leistungsaufnahme im Idle-Modus um 150 mW reduziert werden kann.

Der AP kann Inception-v3 mit 99 Inferenzen pro Sekunde (infs) mit 34 infs/W ausführen. ResNet-34 und MobileNet-SSD von AIMark kommen auf 111 infs bzw. 41 infs. Darüber hinaus hängt die Energieeffizienz natürlich auch von der Pruning-Rate (Gewichte werden weggelassen, die keinen Einfluss auf die Lernfähigkeit des neuronalen Netzes haben) ab.

Absolutes Novum auf der diesjährigen ISSCC war außerdem ein Vortrag von Alibaba. Yang Jiao, Forscher in der Alibaba Group, stellte einen programmierbaren NPU-Chip für CNNs (Convolutional Neural Networks) in 12 nm vor, der auf eine Leistung von 825 TOPS kommt. Der Chip ist mit vier Prozessorkernen, einem Command-Processor (CP), 192 MB On-Chip-SRAM und PCIe4 ausgestattet. Jeder Core wiederum verfügt über eine Tensor Engine (TE), eine Pooling Engine (PE) und eine Memory Engine (ME), die parallel arbeiten. Mit der TE lassen sich Matrixmultiplikationen (MM) und Faltungen (CONV) beschleunigen, zwei der wichtigsten DL-Operationen (Deep Learning), die sehr rechenintensiv sind. Die PE wiederum unterstützt Pooling, Interpolation und sogenannte ROI-Operationen (Region of Interest). Die ME ist für die Inter-/Intra-Core-Datenkopien und die Matrixumsetzung zuständig.

Alle Einheiten werden mithilfe eines Sequencers (SEQ) orchestriert. Die vier Kerne sind mithilfe eines unidirektionalen Ringbusses miteinander verbunden, der aus der Sicht von Alibaba einfach, aber sehr effizient für große Modelle ist. Der CP stellt die Schnittstelle zwischen den Treibern und der MPU dar und ist außerdem für die Synchronisation zwischen den Cores verantwortlich. Der Chip kommt auf rund 17 Mrd. Transistoren, die Die-Fläche ist mit 709 mm2 angegeben. Bei einer Taktfrequenz von 700 MHz kommt der Chip auf eine Maximalleistung von 825 TOPS bei einem 8-bit-Integer-Format.

Damit liegt Alibaba deutlich über bisherigen KI-Beschleuniger-Chips wie beispielsweise dem T4 von Nvidia (125 TOPS, Int8) oder dem Ascent910 von Huawei (512 TOPS), und das bei gleichzeitig geringer Frequenz (700 MHz versus 1530 MHz für den V100 und 1000 MHz für den Ascent910). Den TPD-Wert (thermische Verlustleistung) spezifiziert Alibaba mit 280 W, hier liegen Huawei (350 W) und Nvidia (300 W) mit ihren Bausteinen ebenfalls schlechter. Auch was die Performance anbelangt, kann der Alibiba-Chip punkten: Bei ResNet-50-v1-Benchmark (Inferenzierung INT8) kommt er im Performance-Mode auf 78.563 Bilder/s, im Efficiency-Mode auf 500 Bilder/s/W, also auch hier deutlich besser als die konkurrierenden Varianten.

Seite 2 von 2

1. Aktiv, nicht passiv!
2. Blick in die Zukunft

Auf Facebook teilenAuf Twitter teilenAuf Linkedin teilenVia Mail teilen

Verwandte Artikel

AMD Advanced Micro Devices GmbH, INTEL GmbH, IBM Deutschland GmbH, CEA Leti, STMicroelectronics GmbH, Mentor Graphics (Deutschland) GmbH, TSMC Europe B.V., Samsung Electronics GmbH Samsung House, Alibaba Cloud, NVIDIA Corporate, Huawei Technologies Deutschland GmbH