Samsung überholt Intel Snapdragon 835 ist erster 10-nm-Chip

Die erste 10-nm-Chip-Fertigung findet in Korea statt, Nutznießer ist Chiphersteller Qualcomm, dessen Snapdragon-835-SoC das neue Galaxy S8 antreibt. Ein überlegenes LTE-Modem, eine einzigartige ARM-CPU-Lizenz und eine überragende Energieeffizienz machen den Chip für Smartphone-Hersteller attraktiv.

Seit es Halbleiter gibt, trieb Chip­riese Intel die Konkurrenz bezüglich der Fertigung vor sich her. Moore‘s Law wurde im Tick-Tock-Modell ausgereizt, bis es nicht mehr ging, zeitweise hatte man zwei Jahre Vorsprung vor den Auftragsfertigern TSMC und Co. 

Doch dies alles ist Geschichte: Auch wenn die Bezeichnungen mit realen Geometrien nichts mehr zu tun haben, hat der koreanische Elektronikriese Samsung, genauer gesagt dessen Halbleiterfertigung, Intel mit dem 10-nm-»LPE«-Prozess überholt und beherrscht derzeit die kleinsten Fertigungsgeometrien – rund sechs Monate bevor Intel 10 nm zur Verfügung hat und Samsung bei der Logikdichte wieder überholen wird [1].

Qualcomms Snapdragon 835 (Deutsch: Löwenmäulchen) ist das erste SoC, das in 10-nm-LPE-Technik gefertigt wird. Das Bild zeigt das Blockdiagramm dieses Bausteins, das gegenüber dem Vorgänger Snapdragon 821 vor allen Dingen ein verändertes CPU-Cluster und das integrierte X16-LTE-Modem zeigt, welches bislang nur als Standalone-Chip verfügbar war. 

ARM-Modifikations-Lizenz statt Eigendesign 

Seit dem Jahr 2008 entwickelte Qualcomm in seinem Design-Center in North Carolina eigene CPU-Mikroarchitekturen, welche zumindest bei den 32-bit-Varianten den zu identischen Zeiten verfügbaren Original-ARM-Cores in Bezug auf Rechenleistung/W überlegen waren. Zuerst kam der »Scorpion« (schlägt Cortex-A8) gefolgt von »Krait« (schlägt Cortex-A9 und -A15) und dem ersten 64-bit-Design »Kryo«. Letzteres war für Qualcomm ein Desaster: Es kam zu spät, sodass man beim Snapdragon-810 auf ARMs Cortex-A57 zurückgreifen musste. Als Kryo dann im Snapdragon-820 debütierte, musste man feststellen, dass die Rechenleistung nur geringfügig besser als war die des Cortex-A72, und Qualcomm musste diesen Vorsprung mit mehr Siliziumfläche bezahlen: 2,8 mm2 für ein Dual-Core-Kryo standen nur 1,55 mm2 bei einem Quad-Core-Cortex-A72 in Huaweis SoC Kirin 955 gegenüber. 

Nachdem der Markt für High-End-Smartphones ohnehin nur noch wenig wächst und Qualcomms Chipumsatz im Jahr 2016 rund 20 % unter dem des Jahres 2014 lag, traf man die Entscheidung, Kryo für Server-SoCs weiterzuentwickeln und für Smartphones einen völlig neuen Ansatz zu wählen: Mit Hilfe einer einzigartigen ARM-Lizenz darf Qualcomm auf die RTL von Cortex-A zugreifen und diese für eigene Zwecke modifizieren oder einfach nur umbenennen. Das im Bild ersichtliche »Big.Little-Design« mit offiziell acht Kryo-280-CPU-Cores besteht in Wirklichkeit aus vier CPUs des Typs ARM Cortex-A73 (minimal modifiziert) und vier CPUs des Typs ARM Cortex-A53 (vermutlich gar nicht modifiziert, denn Optimierungsmöglichkeiten sind nicht ersichtlich). Wenn man bedenkt, dass zwischen Snapdragon 820 und 835 nur 1 Jahr liegt, waren Qualcomms Optimierungsmöglichkeiten ohnehin limitiert. In zukünftigen Designs könnte man noch an der Sprungvorhersage herumschrauben. Davon abgesehen erfordern Änderungen an der Pipeline und/oder den Schedulern viel Kapazität und Geld sowie hohen Testaufwand.

Die Taktfrequenz der Big-Cores wurde mit 2,45 GHz nur geringfügig gegenüber den 2,4 GHz des Snapdragon 821 angehoben. Da Kryo eine etwas höhere Rechenleistung gegenüber dem Cortex-A73 aufweist, darf man, was die Single-Thread-Performance angeht, keinen Fortschritt erwarten. Anders bei Multicore-Anwendungen: Die vier mit 1,9 GHz getakteten Little-Cores bringen gegenüber dem 821 einen Sprung um +35 %, im Schnitt gibt Qualcomm eine um +20 % höhere Rechenleistung an.

Wegen der 10-nm-Fertigung spendierte Qualcomm den Little-Cores 1 MB L2-Cache, üblich sind 512 KB. Damit finden weniger Zugriffe auf externen DRAM-Speicher statt, was Energie einspart. Die vier Big-Cores teilen sich wie üblich 2 MB L2-Cache.

Am Ende des Tages vermarktet Qualcomm damit unter demselben Namen zwei CPU-Architekturen: »Original-Kryo« für Server-Chips und das »neue Kryo« auf Basis von ARM-Cortex-A-CPUs. Und das alles nur, um das Gesicht im Smartphonegeschäft nicht zu verlieren. Den Cortex-A73 haben wir bereits ausführlich in DESIGN&ELEKTRONIK vorgestellt [2]. 

Adreno-540-GPU profitiert von 10 nm 

Vergangenes Jahr stellte Qualcomm mit Adreno 530 im Snapdragon-820 eine neue GPU-Architektur vor, die mit 624 MHz getaktet wird und vier Schattiererblöcke aufweist. Beim Benchmark »GfXBench« wurden sämtliche GPU-Architekturen inklusive der des Apple-A10 auf die Plätze verwiesen. Adreno-540 ist nun im Wesentlichen eine infolge 10-nm-Fertigung etwas höher getaktete Adreno-530-Architektur, die Taktfrequenz wurde auf 770 MHz (geschätzt) angehoben. 

Gleiches gilt für den Hexagon-DSP, der in der Version 862 zum Einsatz kommt. Die großen architektonischen Fortschritte erfuhr der Vorgänger 860 im Snapdragon 820 unter anderem mit der Ergänzung von 1024-bit-SIMD-Erweiterungen. Diese »Hexagon Vector Extensions« (HVX) können zwar keinen Bildsignalprozessor (ISP) ersetzen, jedoch einige Aufgaben von ISP, GPU und ARM-CPUs übernehmen, die ihrerseits bereits die Neon-SIMD-Erweiterungen enthalten. Die HVX können allerdings pro Taktzyklus achtmal mehr Operationen ausführen als die 128-bit-Neon-Operationen und nehmen dabei nur 6 % bis 25 % der Energie auf. Hexagon 860 taktet mit 1 GHz, Variante 862 dürfte wegen der 10-nm-Fertigung rund 5 % schneller sein. Der Snapdragon 835 enthält noch einen zweiten, kleineren DSP ohne HVX zur Verarbeitung von Audio- und Sensordaten. Dieser hat zusätzliche Eingänge für Mikrophone und Sensoren und der Speicherzugriff wurde von 512 KB auf 1 MB erweitert.

 Snapdragon 835
Snapdragon 821
 
Snapdragon 820Huawei Kirin 960Apple A10
»Big CPU«
4 × Kryo 280*
2 × Kryo2 × Kryo
4 × ARM Cortex-A73

2 × Hurricane

Taktfrequenz
2,45 GHz2,34 GHz2,15 GHz2,4 GHz2,34 GHz
»Little CPU«4 × Kryo 280**2 × Kryo2 × Kryo4 × ARM Cortex-A532 × Zephyr
Taktfrequenz1,9 GHz2,19 GHz1,59 GHz1,8 GHz1,7 GHz***
L2-Cache Big/Little2 MB/1 MB2 MB/0,5 MB1,5 MB/0,5 MB2 MB/0,5 MB3 MB geteilt***
GPUAdreno 540Adreno 530Adreno 530ARM Mali-G71 MP8Imagination Power VR GT7600
Taktfrequenz770 MHz***653 MHz624 MHz900 MHzUnbekannt
DRAMLPDDR4XLPDDR4LPDDR4LPDDR4LPDDR4
LTE Download max.1000 Mbit/s600 Mbit/s600 Mbit/s600 Mbit/sUnbekannt
FertigungSamsung 10 nm LPESamsung 14 nm LPPSamsung 14 nm LPPTSMC 16 nm FF+TSMC 16 nm FF+
CPU-Performance Single-Thread****1,051,11,01,01,6
CPU-Performance Multi-Thread****1,351,041,01,331,08
GPU-Perf. GFX 3.1****1,241,111,00,90,84
GPU-Perf. IceStorm Unlimited****1,11,041,01,051,92

 

Mobilgeräte-SoCs im Vergleich. Der Snapdragon 835 überzeugt bedingt bei der Rechenleistung, weist aber aufgrund der 10-nm-Fertigung die beste Energieeffizienz auf. *: Modifizierter ARM Cortex-A73. **: Modifizierter ARM Cortex-A53. ***: Schätzung DESIGN&ELEKTRONIK. ****: Relative Werteangabe bezogen auf Referenz Snap­dragon 820.
 

Ebenfalls verbessert wurde die Video-Engine, welche nun 4K-Videos im Standard H.265 eine Farbauflösung von 10 bit bietet. Die Displaytreiber stellen nun bis zu 4K Auflösung bei 60 Frames/s bereit. Last but not least kann der neue ISP Spectra 180 die Signale eines 32-Megapixel-Sensors verarbeiten oder im Dual-Mode die von zwei 16-Megapixel-Sensoren. Der Vorgänger war auf 1×25 oder 2×13 Megapixel limitiert. 

Top of the Best bei Konnektivität 

Qualcomm wurde einst als Funkchip-Company ­gegründet, auf diesem Gebiet macht den Kaliforniern so schnell niemand etwas vor. Das X16-Modem unterstützt die Vierfach-Carrier-Aggregation, 4×4 MIMO und Quad-256. Alle Technologien können in unterschiedlichen Konfigurationen kombiniert werden, sodass im besten Fall Download-Geschwindigkeiten von 1 Gbit/s erreicht werden, immerhin 67 % mehr als beim Snapdragon-820. 

Die ­Quadraturamplitudenmodulation ist ein Modulationsverfahren, das Amplitudenmodulation und Phasenmodulation kombiniert und hier mit 256 Symbolen ausgeführt wird. Ein 20-MHz-Kanal schafft damit im 2×2-MIMO-Modus 200 Mbit/s Durchsatz, das X16 kann vier Kanäle aggregieren. Das ist eindrucksvoll, die Frage ist nur: Welcher Telekommunikations­an­bieter hat überhaupt ein 80 MHz breites Frequenzspektrum?

Bei 4×4 MIMO wird der Durchsatz durch die Überlagerung von zwei weiteren Datenströmen im selben Kanal erhöht. Zwei 4×4-Kanäle plus ein 2×2-Kanal bringen 1 Gbit/s. Doch auch diese 3-Kanal-Konfiguration überfordert die meisten Telco-Anbieter. Immerhin können 2/3 der Telcos weltweit 1 Gbit/s mittels unlizensiertem Frequenzspektrum erreichen. Das X16 unterstützt LTE-U und die vorläufige LAA-Spezifikation. Man kann auch unlizensierte Kanäle mit einem lizensierten Kanal kombinieren.

Eine weitere Herausforderung ist: QAM-256 funktioniert nur in geringer Entfernung zur Basisstation, ebenso wie 4×4-MIMO. Weiter entfernt werden Zusatzantennen für die Empfangsdiversität benötigt und die Übertragung fällt auf 2×2-MIMO zurück. Um tatsächlich 1 Gbit/s zu erreichen, müssen daher mehr kleinere Funkzellen eingerichtet werden

Apropos Antennen: 4×4-MIMO benö­tigt zwei Zusatzantennen im unteren/mittleren Band bis 2,1 GHz und zwei weitere im High-Band 2,3 GHz bis 5 GHz. Einige Antennen können über Multiplexer mit WiFi und GPS geteilt werden, wodurch jedoch Signalverluste auftreten. Der HF-Trans­ceiver WTR5975 muss Signale all dieser Antennen verarbeiten, er ist ein eindrucksvolles Stück Silizium: vier Kanäle auf der Downlinkseite (davon 4×4-MIMO auf zwei Kanälen) plus zwei Kanäle auf dem Uplink, Kompatibilität zu allen 3PP-Bändern und den künftigen 3,5-GHz-Bändern und unlizensierten 5-GHz-Bändern. Dazu kommt der HF-Receiver für GPS-, Glonass-, Galileo- und Beidou-Satelliten. Für die Realisierung einer derart umfassenden Hochfrequenzfunktionalität mussten die Ent­wickler bislang mindestens drei Chips vorsehen

Als Broadcom sein WiFi-Geschäft an Cypress verkaufte, witterte Qualcomm Morgenluft. Nachdem fast alle Handyhersteller diskrete Broadcom-WiFi-Chips ein­designt hatten und Snapdragon 820/821 kein WiFi mehr boten, startete Qualcomm einen neuen Anlauf: Mas 802.11ac Wave 2 mit 2×2-MIMO bringt bis zu 700 Mbit/s. Gegenüber einem externen in 28 nm gefertigten WiFi-Chip konnten Größe und Leistungsaufnahme halbiert werden.

Als letzten Chip im Konnektivitätssubsystem unterstützt der WCN3990 mit dem WiFi-HF-Teil auch Bluetooth 5.0 (!) sowie FM-Radio. Was fehlt, ist NFC. Doch aufgrund des Kaufes von NXP, dem NFC-Marktführer, ist es wohl nur eine Frage der Zeit, bis Snap­dragon auch dies noch integriert hat. 

Single-Thread pfui, Multi-Thread hui! 

Im Vergleich zur Konkurrenz schlägt sich der neue Snapdragon 835 durchwachsen, wobei dies Nörgeln auf hohem Niveau ist. Wie die Tabelle zeigt, geht Snapdragon 835 in der Single-Thread-CPU-Rechenleistung im Vergleich zu Apples-A10 mit dessen selbstdesignter »Hurricane«-CPU unter. Auch gegenüber seinem Vorgänger 821 und Huaweis Kirin 960 kann er sich nicht profilieren. Im Multicore-Betrieb hingegen führt er das Feld zusammen mit dem Kirin 960 an, welcher die identische CPU-Konfiguration und ähnliche Taktfrequenzen aufweist. 

Um bei der GPU-Leistung mit Qualcomm mithalten zu können, hat Huawei die Anzahl der Schattierer gegenüber dem Vorgänger Kirin-950 auf acht verdoppelt und ist zu ARMs G71-Maili-Architektur gewechselt. Wegen TSMCs 16-nm-FF+-Prozess kann Huawei die Adreno-540-GPU dennoch nicht gefährden. Lediglich bei einem Grafik-Benchmark, dem IceStorm Unlimited, sticht Apples A10 heraus.

Was die Energieeffizienz angeht, ist der Snapdragon wegen der 10-nm-Fertigung überlegen: Neben dem größeren Cache für die Little-CPUs ist dabei auch die Unterstützung von LPDDR4X-DRAM bis zu 2,4 GHz zu nennen, was gegenüber LPDDR4 die Leistungsaufnahme um rund 20 % reduziert.

Anzumerken ist noch: Während Apple gar keine Konnektivität-on-Chip aufweist, kommt Kirin 960 trotz 4×Carrier-­Aggregation, 4×4 MIMO und QAM-256 auf »nur« 600 Mbit/s. Ende 2017 wollen AT&T, Deutsche Telekom, NTT DoCoMo (Japan), Sprint und Vodafone und andere ihre Gbit-LTE-Netzwerke ausrollen, sodass sich der Snapdragon 835 in diesem Umfeld gut vermarkten lassen dürfte. 

Snapdragon 845 bringt viele Neuerungen

Dank Samsungs 10-nm-Fertigung konnte Qualcomm mit überschaubarem Aufwand in den Wertungsdisziplinen CPU, GPU und DSP punkten. Die Koreaner schenkten den Kaliforniern quasi 20 % bis 25 % mehr Energieeffizienz, dazu kommt ein sensationelles Modem mit noch sensationelleren Companion-Chips, die im Markt ihresgleichen suchen. 

Der Nachfolger Snapdragon 845 wird dieses Geschenk, eine 7-nm-Fertigung, nicht bekommen. Es ist daher davon auszugehen, dass es signifikante Überarbeitungen an der GPU- und DSP-Architektur geben wird, dazu möglicherweise erweiterte Veränderungen eines dann aktuellen ARM Cortex-A75 als Nachfolger des A-73 – auch wenn dies auf Kosten der »Time to Market« gehen und deswegen weniger attraktiv sein könnte.

Auf jeden Fall ist der Deal mit ARM bezüglich einer »Veränderungslizenz für ARM-CPUs« wirtschaftlich sinnvoll: Qualcomms Marktanteil bei High-End-Smartphones ist auf knapp über 30 % gefallen, da neben Apple nunmehr auch Samsung und Huawei ihre eigenen CPUs designt haben oder eigene SoCs einbauen.

Da der Markt selbst nicht mehr wächst, machen die riesigen Investitionen in eigene Mobilgeräte-CPUs keinen Sinn mehr, zumal technisch die Luft immer dünner wird. Der Cortex-A73 und erst der -A75 von ARM sind schlicht zu gut, um noch viel mehr Rechenleistung und/oder Energieeffizienz herauskitzeln zu können.(fr)

Referenzen 

[1] Riemenschneider, F.: Moore‘s Law von der Schippe gesprungen. DESIGN&ELEKTRONIK 2017, Ausgabe 4, S. 18 ff.

[2] Riemenschneider, F.: ARM Cortex-A73 toppt High-End-CPUs. DESIGN&ELEKTRONIK 2016, Ausgabe 12, S. 26ff.