ISSCC 2020 Aktiv, nicht passiv!

Großer Andrang auf der ISSCC letzte Woche in San Francisco.

Die diesjährige ISSCC in San Francisco stand unter dem Motto „Integrierte Schaltungen treiben die KI-Ära an“. Die knapp 3000 Teilnehmer konnten sich in 34 verschiedenen Sessions über die neuesten Entwicklungen in der Industrie, im akademischen Umfeld und aus den Forschungszentren informieren.

Auf der ISSCC stellen typischerweise Firmen wie Intel, AMD oder IBM ihre Weiterentwicklungen in der Prozessorwelt im Detail vor. In diesem Jahr zählt ein Prozessor mit 96 Cores auf sechs Chiplets verteilt und einer Rechenleistung von 220 GOPS zu den Highlights, und dieses Highlight wurde nicht von den Altbekannten vorgestellt, sondern vom europäischen Forschungszentrum CEA-Leti, das diesen Proof of Concept zusammen mit STMicroelectronics, Mentor Graphics und der Sorbonne University entwickelt hat.

Mit der Verlangsamung der Prozessskalierung suchen insbesondere die Prozessorhersteller nach Alternativen, um die Performance ihrer Produkte zu steigern. Ein mittlerweile häufig genutzter Ansatz sind Chiplets, und auch in diesem Jahr ging es in dem einen oder anderen Vortrag um Chiplet-Architekturen. Auch bei dem europäischen Ansatz wird auf die Chiplet-Architektur zurückgegriffen, aber mit einem neuen technischen Ansatz, und zwar mit einem aktiven Interposer. Im Vergleich dazu nutzt AMD für seine Chips mit Chiplets ein organisches Substrat (AMD hat zwar bereits vor zwei, drei Jahren ebenfalls über aktive Interposer nachgedacht, aber dies bislang nicht umgesetzt), TSMC setzt auf einen passiven Interposer (CoWos, 2,5D) und Intel nutzt seine EMIB-Bridge, eine Siliziumbrücke, um die verschiedenen Chiplets in einer 3D-Anordnung zu integrieren.

Pascal Vivet, Scientific Director vom CEA-Leti, ist überzeugt, dass die bisherigen Ansätze diverse Einschränkungen aufweisen, die mit dem aktiven Interposer überwunden werden. Dazu zählt er beispielsweise die Tatsache, dass bei allen genannten Ansätzen die Kommunikation zwischen den Chiplets auf benachbarte Chiplets beschränkt ist und es nicht möglich ist, dass die Chiplet-Kommunikation flexibel umsetzbar ist, um auch eine größere Anzahl von Chiplets über große Distanzen zu verbinden.

Außerdem sei die reibungslose Integration von heterogenen Chiplets äußerst schwierig, denn irgendwie müssen ja die verschiedenen Protokolle der heterogenen Chiplets umgesetzt werden. Sollen auch noch Funktionen integriert werden, mit denen die verschiedenen Module zusätzlich differenziert werden können, ist man mit den bisherigen Chiplet-Ansätzen auch zum Scheitern verurteilt. Vivet weiter: »Aber auch die Integration von weniger skalierbaren Funktionen wie Analogfunktionen, I/Os oder Power Management ist äußerst schwierig.«

Ein aktiver Interposer hingegen kann genau das alles bieten, denn er zeichnet sich prinzipiell durch folgende Vorteile aus: Es kann ein NoC (Network on Chip) integriert werden, sodass die Kommunikation skalierbar ist und problemlos jedes Chiplet mit jedem kommunizieren kann. In den aktiven Interposer lassen sich darüber hinaus auch zusätzliche Funktionen zur Differenzierung sowie typische Funktionsblöcke wie Analog, I/Os, PHYs oder DFT-Schaltungen integrieren (DFT: Design For Test). Außerdem lässt sich auch das Power Management im aktiven Interposer implementieren und damit nahe an die Chiplets mit den Cores bringen. Vivet weiter: »Wird dann noch eine ausgereifte CMOS-Technik mit geringer Logikdichte verwendet, dann wird auch noch die Kostenseite geschont.«

Diese prinzipiellen Vorteile haben die Partner jetzt mit ihrem Modul bewiesen. Auf dem Modul wurden sechs Chiplets integriert. Jedes Chiplet ist mit vier Clustern à vier MIPS32v1-Cores ausgestattet, sodass insgesamt 96 Cores integriert sind. Dazu kommt noch verteilter L1-, L2- und L3-Cache. Zur Fertigung der Chiplets kommt ein FDSOI-Prozess mit 28-nm-Strukturen und Back Biasing zum Einsatz. Die Chiplets sind in einer Face-to-Face-Konfiguration mit Micro-Bumps und einem Pitch von 20 µm in einer 3D-Anordnung auf den aktiven Interposer gesetzt. Die gesamte Systemarchitektur ermöglicht eine vollständig skalierbare, verteilte Cache-kohärente Architektur zwischen allen Recheneinheiten, die über den aktiven Interposer verbunden sind. Die Cache-kohärente Architektur ermöglicht eine einfache Software-Implementierung über eine Hierarchie von Caches; der Ansatz ist auf bis zu 512 Cores erweiterbar.

Der aktive Interposer wiederum basiert auf einer 65-nm-CMOS-Technologie und ist mit folgenden Funktionen versehen: ein NoC (Network on Chip), ein SCVRs (Switched Capacitor Voltage Regulator) pro Chiplet, Memory-I/O-Controller und PHYs für die Socket-Kommunikation, energieeffiziente 3D-Plugs für eine Inter-Layer-Kommunikation mit hohem Durchsatz, System-I/Os und DFT-Schaltungen.