Schneller und energiesparender Apples A13-SoC im iPhone 11 hat 8,5 Milliarden Transistoren

Apples VP Phil Schiller präsentierte die neuen iPhones 11 mit dem Apple-A13-SoC inside.
Apples VP Phil Schiller präsentierte die neuen iPhones 11 mit dem Apple-A13-SoC inside.

Bei der Vorstellung vom neuen iPhone 11 teilte Apple einige Details über das neue A13-SoC mit. Dies wurde für maschinelles Lernen optimiert. Die NPU soll 6x mal schneller als ihr Vorgänger arbeiten und CPU, GPU und NPU bei der Durchführung von maschinellen Lernaufgaben besser zusammenarbeiten.

Im Vergleich zum Apple-A12, der sich in den derzeit aktuellsten iPhones befindet, finden sich im A13 auf den ersten Blick generell viele Ähnlichkeiten, wenn auch an allen Schrauben gedreht wurde. Apples Vice President Silizium Engineering, Sri Santhanam, erklärte, es handele sich um den “schnellsten Smartphone-Prozessor” auf dem Markt.

Wie auch der A12 wird der A13 bei TSMC in einem 7-nm-Prozess gefertigt, allerdings in dessen 2. Generation. Das SoC umfasst jetzt 8,5 Milliarden Transistoren - ein großes Update im Vergleich zum A12, der 6,9 Milliarden Transistoren hatte – und wie sein Vorgänger über eine 6-Core-Architektur mit einem Quad-Core-Cluster von Low-Power-CPUs und zwei High-Performance-CPUs. Auch wenn zum jetzigen Zeitpunkt keine Details über deren Mikroarchitektur bekannt sind, steht auf Grund der später erläuterten Benchmark-Zahlen fest, dass ihre IPC (Befehle pro Taktzyklus) sämtliche bislang bekannten eigenentwickelte CPUs der Konkurrenz übertrifft.

Der A13 beinhaltet wie auch sein Vorgänger A12 unverändert eine 6-Core-Architektur, während z.B. Qualcomm mit dem Snapdragon 865 oder Samsung mit seinen Exynos-Chips jeweils eine Octa-Core-Architektur implementierten. Die beiden Hochleistungs-CPUs sind laut Apple 20 % schneller als ihre A12-Pendants und sind um  30 % energieeffizienter. Die vier Low-Power-CPUs sollen ebenfalls 20 % schneller sein und sogar um 40 % energieeffizienter arbeiten. Gleiches soll für die GPU gelten (+20 % Rechenleistung, 40 % weniger Energieverbrauch). Und schließlich hat die NPU wie ihr Vorgänger acht Cores und soll 20 % mehr Rechenleistung und 15 % weniger Energieverbrauch aufweisen.

Diese ganzen Zahlen wurden von Apple in den Raum geworfen, ohne irgendeinen Betriebspunkt oder einen spezifischen Workload angegeben zu haben. Auch wenn Apple sicherlich die besten Chip-Designer im Silicon Valley beschäftigt, können auch diese nicht zaubern. Schauen wir uns daher die einzelnen Elemente an.

Zuerst sind da die Verbesserungen auf der Fertigungsseite. TSMC verfügt über zwei verbesserte 7-nm-Prozesse, die Apple hätte einsetzen können, tatsächlich wurde offenbar der N7P-Prozess und nicht der sogenannte 7+-Prozess gewählt. Der für den A12-Chip verwendete Basis-7nm-Prozess wird als N7 bezeichnet. TSMC kann nunmehr für erste Kunden das N7+-Verfahren einsetzen, bei dem für einige der Chip-Schichten EUV-Lithographie (Extreme Ultraviolet) verwendet wird. Die Taiwaner behaupten, dass dies Chips mit höherer Dichte (etwa 20 Prozent mehr Logik auf gleicher Fläche) und Energieeffizienz (etwa 10 Prozent besser) ermöglichen wird.

TSMC hat auch einen "performance enhanced" 7-nm-Prozess namens N7P. Es verwendet überhaupt kein EUV und ist einfach eine optimierte Version des im A12 verwendeten 7-nm-Prozesses. TSMC sagt, dass er entweder 10% weniger Leistungsaufnahme bei gleicher Taktfrequenz oder eine um 7 % höhere Taktfrequenz bei gleicher Leistungsaufnahme ermöglicht (Bild 1).

N7+ ist also der überlegene TSMC-Herstellungsprozess, aber es spricht vieles dafür, dass Apple aus welchen Gründen auch immer auf N7P zurückgegriffen hat bzw. zurückgreifen musste. Möglicherweise war das Risiko des EUV-Einsatzes noch zu hoch.

Als zweite Stellschraube wurde die Taktfrequenz von 2,49 auf 2,66 MHz angehoben. Dies sind rund 6,8 % und spricht dafür, dass bei gleichem Power-Budget das Potential von N7P (+ 7 %) quasi ausgeschöpft wurde.

Der A12 erhöhte die Transistorzahl von Apple auf überraschende 6,9 Milliarden, was einem Anstieg von 60 % gegenüber dem A11 von 4,3 Milliarden entspricht. Aber der Die-Bereich war etwa 83mm² kleiner als der A11 (etwa 88 mm²) und weit entfernt von den größten Chips, die Apple je in ein iPhone eingebaut hat. Tatsächlich war er der kleinste iPhone-Prozessor - was die Fläche betrifft-  seit neun Jahren. Frühere Apple SoCs waren viel größer, und die A5 und A10 waren jeweils über 120 mm² groß. Beim A13 mit seinen 8,5 Mrd. Transistoren (+23 %) und gleicher Dichte müsste sich folgerichtig auch die Chipfläche um 23 % auf rund 102 mm2 vergrößert haben.

Erste Benchmark-Messungen der Apple-A13-CPUs mit dem bekannten Geekbench ergaben einen um 12,5 % höheren Score für die CPUs im Single-Thread-Betrieb und nur um 1,78 % im Multithreading-Modus (Bild 2). Ob diese Werte mit der finalen iOS13-Version noch verbessert werden können, bleibt abzuwarten. Offensichtlich ist, dass die 6 Cores vermutlich aus thermischen Gründen nicht parallel mit maximaler Taktfrequenz betrieben werden können. Die Verbesserungen durch Veränderungen an der Mikroarchitektur belaufen sich somit taktfrequenzbereinigt auf „nur“ 5,7 %, was z.B. deutlich unter dem Wert liegt, den Arm Jahr für Jahr mit seinen Cortex-A-CPUs erreicht. Allerdings muss man fairerweise feststellen, dass die absolute IPC von Apples Eigenentwicklungen die Arm-Cores als auch die Eigenentwicklungen der Wettbewerber Huawei, Samsung oder Qualcomm schon seit Generationen übertrifft.

Die nächste Frage ist, wie hat Apple das zusätzliche Transistorbudget ausgeben? Ganz klar in Richtung Machine Learning und Bildverarbeitung. Schon im vergangenen Jahr hat Apple die Neural Network Engine im A12 deutlich stärker verbessert als erwartet. Die NPU des A11 kann 600 Mrd. 8-bit-Operationen pro Sekunde durchführen, und Apple hat den A12 bei 5 Billionen 8-bit-Operationen pro Sekunde etwa achtmal schneller gemacht. Wenn die NPU des A13 tatsächlich 6x schneller arbeiten würde, wie von Apple angekündigt, käme sie auf 30 Billionen 8-bit-Operationen pro Sekunde.

Dazu gibt eine neue Komponente im Chip, die intern als "AMX" oder "Matrix"-Co-Prozessor bezeichnet wird, um einige mathematisch anspruchsvolle Aufgaben zu bewältigen. Das kann bei der Computer-Vision und Augmented Reality helfen, die Apple als Kernfunktion seiner mobilen Geräte vorantreibt.

Wenn man mich fragt, klingt das ganz nach NPU. Ist dies einfach ein neuer Name für das gleiche Feature oder besseres Branding für seine erweiterten Möglichkeiten? Oder ist das etwas ganz anderes, eine andere Art von mathematischer Co-Verarbeitungseinheit oder vielleicht eine Reihe von SIMD-Befehlssatz-Erweiterungen, wie wir sie seit Jahren auf Desktop-Prozessoren (SSE und AVX) sehen, so dass eine sechsmal schnellere Matrix-Multiplikation - die Kernaufgabe für Modelle des maschinellen Lernens – durchgeführt werden können als beim Vorgänger?

Ohne ein (gehacktes) iPhone 11 bleiben noch viele Fragen bezüglich des A13-SoCs unbeantwortet. Fest steht jedoch, dass die „Performance-CPUs“ eine bislang unerreichte Single-Task-Rechenleistung an den Tag legen, was bei vielen Anwendungen, die weiterhin nicht gut über mehrere Cores skalieren, nützlich ist. Was die NPU zu leisten im Stande ist, wird man dann sehen, wenn laut Apple aus mehreren Einzelfotos, die parallel aufgenommen werden, eine „optimale“ Grafik zusammengesetzt wird.