Garantiert NSA-freie CPUs Abschied von Intel? Chinesische x86-Prozessoren vorgestellt

China ist mit der Einführung der neuesten x86-Prozessoren von Zhaoxin einen großen Schritt in Richtung Unabhängigkeit von den US-Herstellern Intel und AMD vorangekommen. Auf der 19. China International Industry Fair im Shanghai Convention and Exhibition Centre wurden die neuen Chips enthüllt.

Vermutlich haben Sie noch nie von Zhaoxin, oder korrekt ausgeschrieben Shanghai Zhaoxin Semiconductor Co., Ltd., gehört. Es handelt sich um einen chinesischen Mikroprozessor-Entwickler, der seit langem an der Entwicklung einer heimischen x86-CPU-Mikroarchitektur arbeitet, um China von den US-Lieferanten Intel und AMD unabhängig zu machen. Ob die Angst der chinesischen Regierung, über in die amerikanischen CPUs eindesignte Backdoors ausspioniert zu werden oder die fehlende Möglichkeit, selbst zu spionieren, die primäre Triebfeder ist, kann nur spekuliert werden.

Um zu verstehen, wie überhaupt Zhaoxin an die x86-relevanten Patente und Technologien kommt, muss man sich zunächst mit den Eigentumsverhältnissen beschäftigen. Neben Intel und AMD gab es noch einen vergleichsweise winzigen dritten US-Hersteller, der über Kreuzlizenzierungsabkommen Zugriff auf die x86-Technologie hatte: VIA Technologies Inc., 1987 im Silicon Valley gegründet. Seit 1992 befindet sich der Firmensitz in Taiwan. Bei Zhaoxin handelt es sich um ein Joint Venture zwischen der Shanghai Alliance Investment Ltd. (80,1 %) – eine Firma, die de facto über die Shanghai SASAC (State-owned Assets Supervision and Administration Commission of the State Council) dem Staat gehört – und VIA Technologies (19,9 %) mit der Folge, dass Zhaoxin ohne Gefahr einer Patentverletzung x86-kompatible CPUs entwickeln kann.

In einem Vergleich mit der FTC (Federal Trade Commission) aus dem Jahr 2010 nach einem Verfahren gegen Intel wegen Ausnutzung seiner Monopolstellung zu Lasten des Wettbewerbs geht nämlich auch hervor, dass Intel weiterhin Lizenzen für die Entwicklung und den Verkauf von x86-Prozessoren durch AMD und VIA Technologies vergeben muss – auch wenn diese die x86-Prozessoren bei Auftragsfertigern wie Globalfoundries oder TSMC produzieren lassen. 

VIA ist übrigens nicht das einzige Unternehmen außerhalb der USA mit einer x86-Lizenz - bereits im Rahmen der Veröffentlichung der Finanzergebnisse von AMD im 1. Quartal 2016 kündigt das US-Unternehmen ein neues Joint Venture zur Entwicklung von x86-SoCs für Server an, in welchem sich AMD mit Tianjin Haiguang Advanced Technology Investment Co., Ltd. (Thatic), einem Investment-Arm der chinesischen Akademie der Wissenschaften, zusammengeschlossen hat. AMD bringt x86- und SoC-IP zusammen mit bedeutenden Engineering- und anderen technischen Ressourcen ein (und erhält dafür 293 Mio. Dollar Lizenzgebühren), während Thatic ebenfalls technische Ressourcen und die Finanzierung hinter dem Unternehmen zur Verfügung stellt.

Fünfte CPU-Generation »KaiXian«

Zhaoxins neue Prozessorgeneration auf Basis einer »WuDaoKou« genannten Mi-kroarchitektur wird in einem 28-nm-Prozess bei der chinesischen Foundry HLMC (Shanghai Huali Microelectronics Corporation) gefertigt und ist Nachfolger der »Zhangjiang«-Architektur, bei der es sich mehr oder weniger um einen 1:1-Clone von VIAs »Isaiah-II«-Architektur handelt, die von VIAs Tochterfirma Centaur Technology entwickelt wurde. 

WuDaoKou ist das erste Design, das den heutigen x86-Mikroprozessoren ähnelt, indem es vom Front-Side-Bus (FSB) befreit wurde. Zuvor integrierte der Chipsatz die Southbridge und Northbridge (Bild 1). Ein neuer Uncore enthält jetzt den Speichercontroller sowie alle E/A-PHYs und die Speicher- und Cache-Arbitration (Bild 2).

Der neue Chip ist ein komplettes SoC mit N-Core-Clustern, einem integrierten Grafikprozessor und dem Uncore (siehe Kasten) auf einem einzigen Chip. Jeder Cluster (Zhaoxin nennt es auch Modul) besteht aus vier Cores mit jeweils einem 8-fach assoziativen 32 KB großen L1-Cache für Daten und Instruktionen und einem gemeinsamen 4 MB großen 32-fach assoziativen L2-Cache. Die Cluster werden im Uncore zusammengeführt und können über eine neue kohärente Schaltmatrix direkt miteinander kommunizieren. Während das Design auf eine höhere Core-Anzahl skalieren kann, haben die aktuellen Chips nur zwei Cluster für insgesamt acht Cores.

Das CPU-Design selbst ist ein superskalares Out-of-Order-Design mit spekulativer Befehlsausführung, das den x86-64-Befehlssatz implementiert und eine um fünf Stufen reduzierte Pipeline gegenüber dem aktuellen Design enthält. Die Sprungvorhersage wurde optimiert und die Ausführungseinheiten im Backend neu »ausbalanciert« – leider hat sich Zhaoxin nicht zu weiteren Details der Mikroarchitektur geäußert. Insgesamt sollen die neuen CPUs bei der Single-Thread-Performance um etwa 25 % und bei Multi-Core-Workloads um 40 % schneller sein. 

Die Schaltmatrix ist eine Punkt-zu-Punkt-Hochgeschwindigkeitsverbindung, die eine wesentlich höhere Bandbreite bietet, als die bisherige Lösung (Front-Side-Bus) liefern konnte. Darüber hinaus reduziert sie auch die Latenz und implementiert Funktionen für die Kontrollfluss-Steuerung und Cache-Kohärenz. Da dieser Chip auch eine GPU enthält, ist er auch über die Schaltmatrix verbunden. Der neue Speichercontroller im Uncore wurde verbessert. Es unterstützt jetzt bis zu Dual-Channel-DDR4 mit Datenraten von bis zu 2400 MT/s (obwohl aktuelle SKUs nur bis zu 2133 MT/s zu unterstützen scheinen). 

Neue CPU-Familien 

Zhaoxin kündigte zwei neue Produktfamilien basierend auf ihrer neuesten Architektur an: KaiXian 5000 (KX-5000) und Kais-Heng 20000 (KH-20000). Die KaiXian 5000 Serie ist hauptsächlich für PCs, Workstations und Laptops gedacht. Diese SKUs sind gegen Intels Core-i3- und Core-i5-Prozessoren positioniert (Bild 3). 

Die Modellnummerierung entspricht der von AMD und Intel. Die erste Ziffer »5« bezieht sich auf die 5. Generation, nächsten drei Ziffern auf die Taktfrequenz, die Anzahl der Cores und das Marktsegment. Darüber hinaus bezieht sich das U-Präfix auf High-End-8-Core-Modelle und das M-Suffix auf Low-Power-Modelle. Alle Modelle verfügen über Virtualisierungsunterstützung, die mit Intels VT-x-, Trusted Execution Technology- (TXT), SSE-4.2- und AVX-Unterstützung kompatibel ist. Diese Modelle unterstützen 64 GB DDR4-Speicher und haben eine GPU integriert, die bis zu drei Displays mit DirectX-11.1-Unterstützung und 4K-Auflösung unterstützt.

Es ist erwähnenswert, dass Zhaoxin am PadLock (eine Sicherheits-Engine, die auf vielen VIA-Chips zu finden ist) einige kleinere Verbesserungen vorgenommen hat, wie zum Beispiel die Unterstützung der beiden chinesischen kryptografischen Hash-Algorithmen SM3 und SM4. Aber darüber hinaus ist die Architektur identisch. 

Wir haben Zhaoxin gefragt, ob sie von den jüngsten Sicherheitslücken betroffen sind und bekamen bestätigt, dass die KX-5000-Serie von Meltdown nicht betroffen ist. Spectre ist theoretisch anwendbar, angeblich sei jedoch eine viel komplexere Abfolge von Operationen erforderlich als bei den Intel-CPUs, was einen Angriff unglaublich schwierig machen würde.

In der Tat versucht Zhaoxin, Meltdown zu nutzen, um ihre eigenen im Inland entworfenen Chips als eine sicherere Alternative zu pushen. Ohne Details der Mikroarchitektur zu kennen, können wir natürlich weder die eine noch die andere Aussage validieren. Die höhere Integration hat natürlich ihren Preis. Die neuen KX-5000-Chips implmentieren in ihrer Quad-CPU-Ausführung 2,1 Milliarden Transistoren, das ist ungefähr siebenmal so viel wie die ungefähr 300 Millionen Transistoren des ZX-C. Die Die-Größe beträgt 187 mm², was Kosten und Chip-Ausbeute negativ beeinflussen wird. 

DerivatAnzahl CoresL2-CacheTaktfrequenzMax. externer Speicher
KX-554044 MB1,8 GHz64 GB
KX-564044 MB2,0 GHz64 GB
KX-U558088 MB1,8 GHz64 GB
KX-U5580M88 MB1,8 GHz64 GB
KX-U568088 MB2,0 GHz64 GB
KH-2580088 MB1,8 GHz128 GB
KH-2680088 MB2,0 GHz128 GB

 

Tabelle 1: Übersicht über die neuen x86-CPUs designed und made in China.

Neben der KX-5000-Familie kündigte Zhaoxin die Kaisheng-20000-Familie an, die auf Embedded-Netzwerke, Speicher und Server ausgerichtet ist. Diese Serie sollte nicht mit einer ähnlich benannten »ZX-2000«-Serie verwechselt werden, bei der es sich tatsächlich um CPUs vom Typ Quad-Core-ARM-Cortex-A17 handelt.
Wie bei den KX-5000-Chips verfügen alle Modelle über Virtualisierungsunterstützung, die mit Intels VT-x-, Trusted Execution Technology- (TXT), SSE 4.2- und AVX-Unterstützung kompatibel ist. Die Kaisheng-20000-Chips unterstützen bis zu 128 GB Speicher und haben zusätzliche Unterstützung für ECC und RDIMMs. Darüber hinaus ist für diese SKUs keine GPU aktiviert.

In Tabelle 1 sind alle angekündigten Derivate der KX- und KH-Familien aufgelistet. 

Rechenleistung 

Zhaoxin gibt die in Tabelle 2 ersichtlichen SPEC-CPU-2006-Ergebnisse an. Ein Vergleich wurde mit Intels Microserver-Chip Atom C2750 vorgenommen (Bild 4), der noch auf der alten Atom-Mikroarchitektur Silvermont basiert, in einem 22-nm-Prozess gefertigt wird und anders als WuDao-Kou kein Multithreading unterstützt. Da unklar ist, welche Optimierungen Zhaoxin bei seinen Angaben gemacht hat, wurden für den Atom die Basiswerte verwendet. Sowohl im Single-Thread- (SPEC...) als auch im Multi-Core-Modus (SPEC..._rate) schlägt die 8-Core-Variante KX-U5680 bei Integer- (int) und Gleitkomma-Arithmetik (fp) den Intel Atom. Intels Silvermont-CPU wurde allerdings mittlerweile durch Goldmont abgelöst, welche eine rund 50 % höhere Integer-Rechenleistung als Silvermont aufweist [1] und daher einen Vergleich gegen den KX-5000 leicht gewinnen dürfte. 

TestKX-5640 (4 CPUs bei 2,0 GHz)KX-U5680 (8 CPUs bei 2,0 GHz)Atom C2750 (8 CPUs bei 2,4/2,6 GHz)
SPECInt19,119,917,5
SPECint_rate64,3115101
SPECfp22,925,723,0
SPECfp_rate5381,376,8

 

Tabelle 2: Benchmark-Vergleich zwischen KX-5000 und Intels C2750.

Ziel: AMD schlagen 

Zhaoxin arbeitet bereits an der nächsten Generation der KX-6000-Prozessoren. Diese Prozessoren basieren auf der Lujiazui-Mikroarchitektur, die für den 16-nm-Prozess von TSMC vorgesehen ist, gegebenenfalls aber in 14 nm bei SMIC gefertigt werden könnten, wenn SMIC bis dahin seinen 14-nm-Prozess fertig haben sollte.

Um die Rechenleistung zu erhöhen, ist ein Hauptfokus die Erhöhung der Taktfrequenz. Lujiazui wird voraussichtlich mindestens 3 GHz erreichen. Zusätzlich unterstützt der Speichercontroller höhere Datenraten (bis zu 3200 MT/s). 

Zhaoxin hat angekündigt, mit dem KX-6000­Nachfolger KX-7000 eine »AMD-Leistung« zu erreichen. Das heißt konkret, dass der KX-7000 die Rechenleistung von Zen 2 erreicht. Dafür müsste in den 10-nm- oder 7-nm-Prozess von TSMC gewechselt werden, da SMIC oder eine andere chinesische Festland-Foundry bis dahin mit Sicherheit derartige High-End-Fertigung nicht anbieten können wird. Unterstützt werden soll DDR5 und PCIe 4 sowie eine noch höhere Taktfrequenz. Zhaoxin erklärte, dass man plane, die Pipeline wesentlich zu verbessern, um die IPC »erheblich« zu verbessern, ohne jedoch auf Details einzugehen. Erwartet wird eine etwa 1,5-fache Erhöhung der Single-Thread-Rechenleistung gegenüber dem KX-5000.

Alles in allem befindet sich Zhaoxin derzeit noch in einer Art Aufholjagd, aber mit WuDaoKou haben sie bereits einen großen Sprung nach vorne gemacht. Sie werden ähnliche Schritte mit zukünftigen Architekturen unternehmen müssen, um die Lücke zu schließen. Ob die Chinesen AMD oder gar Intel seitens der Rechenleistung erreichen können werden, bleibt abzuwarten. Dennoch ist Zhaoxin (und vor allen Dingen die chinesische Regierung) wild entschlossen, diese beiden US-Unternehmen aus China zu verdrängen.

 

 

Referenzen 

Riemenschneider, F.: Intels »Goldmont« macht »Atom« wettbewerbsfähig. DESIGN&ELEKTRONIK 2017, H. 5, S. 50 ff.

Was ist ein Uncore? 

»Uncore« ist ein Begriff, der von Intel verwendet wird, um die Funktionen eines Mikroprozessors zu beschreiben, die nicht im Core liegen, aber eng mit dem Core verbunden sein müssen, um eine hohe Rechenleistung zu erreichen. Seit der Veröffentlichung der Sandy-Bridge-Intel-Mikroarchitektur wird er als »Systemagent« bezeichnet. Der Core enthält die Komponenten des Prozessors, die an der Ausführung von Anweisungen beteiligt sind, einschließlich des ALU-, FPU-, L1- und L2-Caches. Zu den Uncore-Funktionen gehören QPI-Controller, L3-Cache, Snoop-Agent-Pipeline, Speicher-Controller auf dem Chip und Thunderbolt-Controller. Andere Buscontroller wie SPI und LPC sind Teil des Chipsatzes.

Das Intel Uncore-Design stammt von seiner Herkunft als Northbridge. Das Design von Intel Uncore reorganisiert die für den Core kritischen Funktionen, wodurch sie physisch näher am Core auf dem Chip sind, wodurch ihre Zugriffslatenz verringert wird.

Insbesondere ist die Mikroarchitektur des Intel Uncore in eine Anzahl von modularen Einheiten unterteilt. Die Haupt-Uncore-Schnittstelle zum Core ist die sogenannte Cache-Box (CBox), die mit dem Cache der letzten Ebene (LLC) eine Schnittstelle bildet und für die Verwaltung der Cache-Kohärenz verantwortlich ist. Mehrere interne und externe QPI-Verbindungen werden von Einheiten der physikalischen Schicht verwaltet, die als PBox bezeichnet werden. Verbindungen zwischen der PBox, CBox und einem oder mehreren iMCs (MBox) werden vom Systemkonfigurationscontroller (UBox) und einem Router (RBox) verwaltet.