Egal ob es um SoCs für Mobiltelefone, Server-Prozessoren oder Inferenz-ICs geht, die Halbleiterexperten finden immer Wege, an den PPA-Schrauben (Power, Performance, Area) zu drehen, und erreichen damit zum Teil beachtliche Leistungsparameter wie 82 TOPS/W oder 800 TOPS bei einer 2-bit-Genauigkeit.
Aus der Sicht der ISSCC-Experten wird die Kluft zwischen traditioneller und mobiler Datenverarbeitung immer kleiner. Ihrer Meinung nach werden die mobilen Prozessoren den CPU-Architekturen von Desktop- und Serveranwendungen immer ähnlicher. Als Beispiel für diese Feststellung dient MediaTek, das auf der ISSCC sein 4-nm-Smartphone-SoC für seine High-End-Smartphones vorgestellt hat. Wie bereits früher schon nutzt MediaTek für dieses SoC ein Tri-Gear-CPU-Subsystem; vollkommen neu allerdings ist, dass MediaTek für alle CPUs in dem Tri-Gear-Ansatz eine OoO-Architektur (Out of Order) gewählt hat. Die OoO-HE-Cores (High Efficiency) werden mit drei BP-Cores (Balanced Performance) und einem HP-Core (High Performance) ergänzt. Im Gegensatz zum neuen SoC von MediaTek wird bislang in konventionellen Designs von Tri-Gear-Anwendungsprozessoren für die HE-Kerne eine In-Order-Mikroarchitektur (μArch) genutzt, denn mit diesem Ansatz fallen die Leckströme geringer aus.
MediaTek hat sich für OoO-CPUs entschieden, um die deutlich höhere IPC-Rate (Instructions per Clock) einer OoO-μArch zu erreichen. Der HE-Kern basiert auf einem Cortex-720, der mit einem 256 kB großen Level-2-Cache (L2$) bestückt und mit 2 GHz getaktet ist. Dank des größeren L2$ und dem höheren IPC-Wert, der sich aus der OoO-μArch ergibt, erreicht dieser HE-Kern die gleiche Leistung wie die bisherigen HE-Kerne, und das obwohl die Frequenz deutlich niedriger ist, was wiederum zu einer bis zu 67 Prozent niedrigeren Leistungsaufnahme führt. Die BP- und HP-Kerne, die bisher mit Cortex-715 bzw. Cortex-X3 arbeiteten, sind beide auf ein Cortex-X4-Design umgestellt worden. Die BP-Kerne, die jeweils über 512 kB L2$ verfügen und mit 2,85 GHz getaktet sind, steigern die Leistung von Multi-Thread-Workloads um 23 Prozent und senken den Stromverbrauch um bis zu 35 Prozent bei gleicher Leistung pro Kern. Der auf Single-Thread-Leistung ausgerichtete HP-Kern ist mit 3,4 GHz getaktet und erzielt eine Leistungssteigerung von 16 Prozent gegenüber der vorherigen Generation.
Aus der Sicht der Experten stellt auch das »Zen 4c«-Design von AMD eine Besonderheit dar. Bei »Zen 4c« handelt es sich um das erste flächenoptimierte Design in der »Zen«-MPU-Familie von AMD, das auf energieeffiziente Anwendungen mit hoher Kerndichte wie z. B. Cloud-Computing abzielt. Die Fläche des Zen 4c-Mikroprozessorkerns einschließlich des L2-Caches ist im Vergleich zu dem im letzten Jahr auf der ISSCC vorgestellten Zen 4 um 35 Prozent kleiner, obwohl beide Prozessoren mithilfe derselben 5-nm-FinFET-Prozesstechnologie gefertigt werden. Mit einem kleineren gemeinsam genutzten L3-Cache pro Kern (jetzt 2 MB, früher 4 MB) weist der Core-Complex-Die (CCD) beim Zen 4c die doppelte Anzahl an Kernen im Vergleich zum Zen 4-CCD und die gleiche Menge an L3-Cache (32MB) auf, sodass pro Sockel bis zu 33 Prozent mehr Kerne möglich sind. Dank dieser Flächenoptimierung kann der Zen 4c im Vergleich zum Zen 4 eine um mehr als 25 Prozent verbesserte Leistung/mm2 und eine um 9 Prozent verbesserte Leistung/W bei SPECrate2017_int_base erzielen. Zen 4c kann in einer Serverkonfiguration mit einer Frequenz von bis zu 3,1 GHz arbeiten und bietet gleichzeitig eine energieeffizientere Rechenleistung.
Während der ISSCC gibt es mittlerweile auch immer eine Vortragsreihe, während der besondere, bereits vorgestellte Halbleiter gezeigt werden und zu denen der Programmausschuss der ISSCC die Firmen/Institutionen selbst einlädt. Dazu gehört beispielsweise das niederländische Unternehmen Axelera mit seiner Multicore-AIPU »Metis« (AIPU: AI Processing Unit). Metis ist ein SoC mit vier Kernen, das für das Inferenzieren im Edge und auf Computer-Vision-Workloads am Edge optimiert wurde und alle Teile einer KI-Arbeitslast auf dem Chip ausführt. Die Metis-AIPU kommt auf eine Leistung von 52,4 TOPS pro KI-Kern und einen Gesamtdurchsatz von 209,6 TOPS. Metis nutzt die Vorteile einer quantisierten digitalen In-Memory-Computing-Architektur (D-IMC) – mit 8-bit-Gewichten, 8-bit-Aktivierungen und Akkumulation mit voller Genauigkeit –, um sowohl die Speicherkosten für Gewichte und Aktivierungen als auch den Energieverbrauch von Matrix-Vektor-Multiplikationen (MVM) zu senken, ohne die Genauigkeit des neuronalen Netzes zu beeinträchtigen.
Das SoC umfasst einen RISC-V-Systemcontroller, ein Sicherheitsmodul, PCIe Gen 3, eine Möglichkeit, externen LPDDR4x-Speicher anzubinden, und einen großen On-Chip-SRAM. Alles ist über ein Hochgeschwindigkeits-NoC (Network on Chip) miteinander verbunden. Der RISC-V-Systemcontroller bootet den Chip, verbindet sich mit der Peripherie und verwaltet die KI-Kerne mit einem Echtzeit-Betriebssystem. PCIe bietet eine Hochgeschwindigkeitsverbindung zu einem externen Host, um Aufgaben des neuronalen Netzwerks auf die Metis-AIPU zu verlagern. Das NoC verbindet die KI-Kerne mit einem gemeinsamen Speichersystem, das aus einem insgesamt 32 MB großen L2-Cache plus vier mehrere Gigabyte großen, optionalen LPDDR4x-SDRAMs besteht. Rechnet man dann noch 4 MB L1-Cache pro KI-Kern und die 1-MB-SRAMs in den einzelnen D-IMCs jedes KI-Cores dazu, ergibt sich ein On-Chip-Speicher von 52 MB.
Das Herzstück von Metis ist der KI-Kern. Jeder Kern besteht aus einem RISC-V-Prozessorkern (zur Steuerung des Datenflusses) und dem bereits erwähnten L1-Cache. Dazu kommen noch die D-IMC-Einheit für MVM-Operationen (Matrix-Vector-Multiplication), eine DPU (Datenverarbeitungseinheit) für elementweise Vektoroperationen und Aktivierungen, eine DWPU (Depth-wise Processing-Unit) für tiefenweise Faltungen, Pooling und Up-Sampling. Der AI-Core ist also so konzipiert, dass er alle Schichten eines neuronalen Netzes unabhängig voneinander ausführen kann, ohne dass externe Interaktionen erforderlich sind.
Eine Beta-Version des Metis-AIPU-SoC wurde in einem 12-nm-Prozess hergestellt, um die Fähigkeiten der Architektur zu demonstrieren. Laut Axelera beträgt der Spitzendurchsatz 57,3 TOPS bei 0,7 V und 875 MHz. Nominell wird bei 800 MHz ein Durchsatz von 54,2 TOPS erreicht. Für zufällige gleichmäßige Aktivierungen und Gewichte wird eine Energieeffizienz von 15 TOPS/W bei 0,68 V angegeben, wobei klar ist, dass diese Effizienz stark von den Aktivierungs- und Gewichtsmustern abhängt. Werden Sparsity-Ansätze genutzt, z. B. 50 Prozent Eingabe- und 90 Prozent Gewichtungs-Sparsity, erreicht die Energieeffizienz einen Wert von bis zu 82 TOPS/W.
Ein weiterer eingeladener Vortrag kommt von IBM. Das Unternehmen hat seinen Inferenzierungs-Chip »NorthPole« vorgestellt, der speziell für DNNs (Deep Neural Networks) optimiert wurde. Dabei handelt es sich um einen Chip, der ein Array von 256 Prozessorkernen, 192 MB verteiltes SRAM, einen Frame-Buffer (32 MB SRAM) und eine I/O-Schnittstelle enthält. Bei einer Nennfrequenz von 400 MHz liefert der Chip eine Spitzenrechenleistung von über 200 TOPS bei 8-bit-, 400 TOPS bei 4-bit- und 800 TOPS bei 2-bit-Präzision, und das bei einer hohen Auslastung. Der NorthPole-Inference-Chip wird von GlobalFoundries mithilfe ihres 12-nm-FinFET-Prozesses gefertigt und kommt auf 22 Mrd. Transistoren auf einer Siliziumfläche von 795 mm2. NorthPole arbeitet mit einer Nennspannung von 0,8 V und einer Kerntaktfrequenz von 400 MHz. Mithilfe von Voltage-Scaling wurde NorthPole übertaktet, um bei ausgewählten Workloads 500 MHz zu erreichen.
Das Besondere an der NorthPole-Architektur liegt darin, dass IBM viele kleine Prozessorkerne mit lokalem Speicher über ein NoC verbindet, um zu gewährleisten, dass die Daten auch verfügbar sind: Jeder Core verfügt über einen eigenen, 0,75 MB großen Speicher (Unified Memory) – was übrigens auch einen zentralen als auch den Off-Chip-Speicher vollkommen überflüssig machen soll. Während eines Vorgangs mit einer neuronalen Netzwerkschicht liest jeder Kern seine Eingaben aus seinem UM und schreibt seine Ausgaben in denselben Speicher zurück. Da die Schichtdaten bereit und lokal sind, ist die Auslastung hoch. Da die Auslastung und Parallelität hoch sind, ist die Leistung hoch. Da sich die Schichtdaten typischerweise um 10 bis 100 μm – und nicht um 10 mm oder außerhalb des Chips – bewegen, ist die Effizienz hoch.
Die Leistung von NorthPole wurde für die neuronalen Netze der Familien ResNet18/50/101/152, Yolo-v4, PSPnet und BERT für die Klassifizierung, Erkennung, Segmentierung bzw. Verarbeitung natürlicher Sprache untersucht. Das Ergebnis: NorthPole übertrifft konkurrierende Ansätze in Bezug auf Platz-, Energie- und Zeitmetriken.