Samsung überholt Intel

Snapdragon 835 ist erster 10-nm-Chip

12. Juli 2017, 11:34 Uhr | Frank Riemenschneider

Die erste 10-nm-Chip-Fertigung findet in Korea statt, Nutznießer ist Chiphersteller Qualcomm, dessen Snapdragon-835-SoC das neue Galaxy S8 antreibt. Ein überlegenes LTE-Modem, eine einzigartige ARM-CPU-Lizenz und eine überragende Energieeffizienz machen den Chip für Smartphone-Hersteller attraktiv.

Diesen Artikel anhören

Seit es Halbleiter gibt, trieb Chip­riese Intel die Konkurrenz bezüglich der Fertigung vor sich her. Moore‘s Law wurde im Tick-Tock-Modell ausgereizt, bis es nicht mehr ging, zeitweise hatte man zwei Jahre Vorsprung vor den Auftragsfertigern TSMC und Co. 

Doch dies alles ist Geschichte: Auch wenn die Bezeichnungen mit realen Geometrien nichts mehr zu tun haben, hat der koreanische Elektronikriese Samsung, genauer gesagt dessen Halbleiterfertigung, Intel mit dem 10-nm-»LPE«-Prozess überholt und beherrscht derzeit die kleinsten Fertigungsgeometrien – rund sechs Monate bevor Intel 10 nm zur Verfügung hat und Samsung bei der Logikdichte wieder überholen wird [1].

Qualcomms Snapdragon 835 (Deutsch: Löwenmäulchen) ist das erste SoC, das in 10-nm-LPE-Technik gefertigt wird. Das Bild zeigt das Blockdiagramm dieses Bausteins, das gegenüber dem Vorgänger Snapdragon 821 vor allen Dingen ein verändertes CPU-Cluster und das integrierte X16-LTE-Modem zeigt, welches bislang nur als Standalone-Chip verfügbar war. 

ARM-Modifikations-Lizenz statt Eigendesign 

Seit dem Jahr 2008 entwickelte Qualcomm in seinem Design-Center in North Carolina eigene CPU-Mikroarchitekturen, welche zumindest bei den 32-bit-Varianten den zu identischen Zeiten verfügbaren Original-ARM-Cores in Bezug auf Rechenleistung/W überlegen waren. Zuerst kam der »Scorpion« (schlägt Cortex-A8) gefolgt von »Krait« (schlägt Cortex-A9 und -A15) und dem ersten 64-bit-Design »Kryo«. Letzteres war für Qualcomm ein Desaster: Es kam zu spät, sodass man beim Snapdragon-810 auf ARMs Cortex-A57 zurückgreifen musste. Als Kryo dann im Snapdragon-820 debütierte, musste man feststellen, dass die Rechenleistung nur geringfügig besser als war die des Cortex-A72, und Qualcomm musste diesen Vorsprung mit mehr Siliziumfläche bezahlen: 2,8 mm2 für ein Dual-Core-Kryo standen nur 1,55 mm2 bei einem Quad-Core-Cortex-A72 in Huaweis SoC Kirin 955 gegenüber. 

WEKA Fachmedien
Blockdiagramm des Snapdragon 835. BB = Basisband. *: Modifizierter ARM Cortex-A73. **: Modifizierter ARM-Cortex-A53.
© DESIGN&ELEKTRONIK

Nachdem der Markt für High-End-Smartphones ohnehin nur noch wenig wächst und Qualcomms Chipumsatz im Jahr 2016 rund 20 % unter dem des Jahres 2014 lag, traf man die Entscheidung, Kryo für Server-SoCs weiterzuentwickeln und für Smartphones einen völlig neuen Ansatz zu wählen: Mit Hilfe einer einzigartigen ARM-Lizenz darf Qualcomm auf die RTL von Cortex-A zugreifen und diese für eigene Zwecke modifizieren oder einfach nur umbenennen. Das im Bild ersichtliche »Big.Little-Design« mit offiziell acht Kryo-280-CPU-Cores besteht in Wirklichkeit aus vier CPUs des Typs ARM Cortex-A73 (minimal modifiziert) und vier CPUs des Typs ARM Cortex-A53 (vermutlich gar nicht modifiziert, denn Optimierungsmöglichkeiten sind nicht ersichtlich). Wenn man bedenkt, dass zwischen Snapdragon 820 und 835 nur 1 Jahr liegt, waren Qualcomms Optimierungsmöglichkeiten ohnehin limitiert. In zukünftigen Designs könnte man noch an der Sprungvorhersage herumschrauben. Davon abgesehen erfordern Änderungen an der Pipeline und/oder den Schedulern viel Kapazität und Geld sowie hohen Testaufwand.

Die Taktfrequenz der Big-Cores wurde mit 2,45 GHz nur geringfügig gegenüber den 2,4 GHz des Snapdragon 821 angehoben. Da Kryo eine etwas höhere Rechenleistung gegenüber dem Cortex-A73 aufweist, darf man, was die Single-Thread-Performance angeht, keinen Fortschritt erwarten. Anders bei Multicore-Anwendungen: Die vier mit 1,9 GHz getakteten Little-Cores bringen gegenüber dem 821 einen Sprung um +35 %, im Schnitt gibt Qualcomm eine um +20 % höhere Rechenleistung an.

Wegen der 10-nm-Fertigung spendierte Qualcomm den Little-Cores 1 MB L2-Cache, üblich sind 512 KB. Damit finden weniger Zugriffe auf externen DRAM-Speicher statt, was Energie einspart. Die vier Big-Cores teilen sich wie üblich 2 MB L2-Cache.

Am Ende des Tages vermarktet Qualcomm damit unter demselben Namen zwei CPU-Architekturen: »Original-Kryo« für Server-Chips und das »neue Kryo« auf Basis von ARM-Cortex-A-CPUs. Und das alles nur, um das Gesicht im Smartphonegeschäft nicht zu verlieren. Den Cortex-A73 haben wir bereits ausführlich in DESIGN&ELEKTRONIK vorgestellt [2]. 

Adreno-540-GPU profitiert von 10 nm 

Vergangenes Jahr stellte Qualcomm mit Adreno 530 im Snapdragon-820 eine neue GPU-Architektur vor, die mit 624 MHz getaktet wird und vier Schattiererblöcke aufweist. Beim Benchmark »GfXBench« wurden sämtliche GPU-Architekturen inklusive der des Apple-A10 auf die Plätze verwiesen. Adreno-540 ist nun im Wesentlichen eine infolge 10-nm-Fertigung etwas höher getaktete Adreno-530-Architektur, die Taktfrequenz wurde auf 770 MHz (geschätzt) angehoben. 

Gleiches gilt für den Hexagon-DSP, der in der Version 862 zum Einsatz kommt. Die großen architektonischen Fortschritte erfuhr der Vorgänger 860 im Snapdragon 820 unter anderem mit der Ergänzung von 1024-bit-SIMD-Erweiterungen. Diese »Hexagon Vector Extensions« (HVX) können zwar keinen Bildsignalprozessor (ISP) ersetzen, jedoch einige Aufgaben von ISP, GPU und ARM-CPUs übernehmen, die ihrerseits bereits die Neon-SIMD-Erweiterungen enthalten. Die HVX können allerdings pro Taktzyklus achtmal mehr Operationen ausführen als die 128-bit-Neon-Operationen und nehmen dabei nur 6 % bis 25 % der Energie auf. Hexagon 860 taktet mit 1 GHz, Variante 862 dürfte wegen der 10-nm-Fertigung rund 5 % schneller sein. Der Snapdragon 835 enthält noch einen zweiten, kleineren DSP ohne HVX zur Verarbeitung von Audio- und Sensordaten. Dieser hat zusätzliche Eingänge für Mikrophone und Sensoren und der Speicherzugriff wurde von 512 KB auf 1 MB erweitert.

 Snapdragon 835
Snapdragon 821
 
Snapdragon 820Huawei Kirin 960Apple A10
»Big CPU«
4 × Kryo 280*
2 × Kryo2 × Kryo
4 × ARM Cortex-A73

2 × Hurricane

Taktfrequenz
2,45 GHz2,34 GHz2,15 GHz2,4 GHz2,34 GHz
»Little CPU«4 × Kryo 280**2 × Kryo2 × Kryo4 × ARM Cortex-A532 × Zephyr
Taktfrequenz1,9 GHz2,19 GHz1,59 GHz1,8 GHz1,7 GHz***
L2-Cache Big/Little2 MB/1 MB2 MB/0,5 MB1,5 MB/0,5 MB2 MB/0,5 MB3 MB geteilt***
GPUAdreno 540Adreno 530Adreno 530ARM Mali-G71 MP8Imagination Power VR GT7600
Taktfrequenz770 MHz***653 MHz624 MHz900 MHzUnbekannt
DRAMLPDDR4XLPDDR4LPDDR4LPDDR4LPDDR4
LTE Download max.1000 Mbit/s600 Mbit/s600 Mbit/s600 Mbit/sUnbekannt
FertigungSamsung 10 nm LPESamsung 14 nm LPPSamsung 14 nm LPPTSMC 16 nm FF+TSMC 16 nm FF+
CPU-Performance Single-Thread****1,051,11,01,01,6
CPU-Performance Multi-Thread****1,351,041,01,331,08
GPU-Perf. GFX 3.1****1,241,111,00,90,84
GPU-Perf. IceStorm Unlimited****1,11,041,01,051,92

 

Mobilgeräte-SoCs im Vergleich. Der Snapdragon 835 überzeugt bedingt bei der Rechenleistung, weist aber aufgrund der 10-nm-Fertigung die beste Energieeffizienz auf. *: Modifizierter ARM Cortex-A73. **: Modifizierter ARM Cortex-A53. ***: Schätzung DESIGN&ELEKTRONIK. ****: Relative Werteangabe bezogen auf Referenz Snap­dragon 820.
 

Ebenfalls verbessert wurde die Video-Engine, welche nun 4K-Videos im Standard H.265 eine Farbauflösung von 10 bit bietet. Die Displaytreiber stellen nun bis zu 4K Auflösung bei 60 Frames/s bereit. Last but not least kann der neue ISP Spectra 180 die Signale eines 32-Megapixel-Sensors verarbeiten oder im Dual-Mode die von zwei 16-Megapixel-Sensoren. Der Vorgänger war auf 1×25 oder 2×13 Megapixel limitiert. 

Top of the Best bei Konnektivität 

Qualcomm wurde einst als Funkchip-Company ­gegründet, auf diesem Gebiet macht den Kaliforniern so schnell niemand etwas vor. Das X16-Modem unterstützt die Vierfach-Carrier-Aggregation, 4×4 MIMO und Quad-256. Alle Technologien können in unterschiedlichen Konfigurationen kombiniert werden, sodass im besten Fall Download-Geschwindigkeiten von 1 Gbit/s erreicht werden, immerhin 67 % mehr als beim Snapdragon-820. 

Die ­Quadraturamplitudenmodulation ist ein Modulationsverfahren, das Amplitudenmodulation und Phasenmodulation kombiniert und hier mit 256 Symbolen ausgeführt wird. Ein 20-MHz-Kanal schafft damit im 2×2-MIMO-Modus 200 Mbit/s Durchsatz, das X16 kann vier Kanäle aggregieren. Das ist eindrucksvoll, die Frage ist nur: Welcher Telekommunikations­an­bieter hat überhaupt ein 80 MHz breites Frequenzspektrum?

Bei 4×4 MIMO wird der Durchsatz durch die Überlagerung von zwei weiteren Datenströmen im selben Kanal erhöht. Zwei 4×4-Kanäle plus ein 2×2-Kanal bringen 1 Gbit/s. Doch auch diese 3-Kanal-Konfiguration überfordert die meisten Telco-Anbieter. Immerhin können 2/3 der Telcos weltweit 1 Gbit/s mittels unlizensiertem Frequenzspektrum erreichen. Das X16 unterstützt LTE-U und die vorläufige LAA-Spezifikation. Man kann auch unlizensierte Kanäle mit einem lizensierten Kanal kombinieren.

Eine weitere Herausforderung ist: QAM-256 funktioniert nur in geringer Entfernung zur Basisstation, ebenso wie 4×4-MIMO. Weiter entfernt werden Zusatzantennen für die Empfangsdiversität benötigt und die Übertragung fällt auf 2×2-MIMO zurück. Um tatsächlich 1 Gbit/s zu erreichen, müssen daher mehr kleinere Funkzellen eingerichtet werden

Apropos Antennen: 4×4-MIMO benö­tigt zwei Zusatzantennen im unteren/mittleren Band bis 2,1 GHz und zwei weitere im High-Band 2,3 GHz bis 5 GHz. Einige Antennen können über Multiplexer mit WiFi und GPS geteilt werden, wodurch jedoch Signalverluste auftreten. Der HF-Trans­ceiver WTR5975 muss Signale all dieser Antennen verarbeiten, er ist ein eindrucksvolles Stück Silizium: vier Kanäle auf der Downlinkseite (davon 4×4-MIMO auf zwei Kanälen) plus zwei Kanäle auf dem Uplink, Kompatibilität zu allen 3PP-Bändern und den künftigen 3,5-GHz-Bändern und unlizensierten 5-GHz-Bändern. Dazu kommt der HF-Receiver für GPS-, Glonass-, Galileo- und Beidou-Satelliten. Für die Realisierung einer derart umfassenden Hochfrequenzfunktionalität mussten die Ent­wickler bislang mindestens drei Chips vorsehen

Als Broadcom sein WiFi-Geschäft an Cypress verkaufte, witterte Qualcomm Morgenluft. Nachdem fast alle Handyhersteller diskrete Broadcom-WiFi-Chips ein­designt hatten und Snapdragon 820/821 kein WiFi mehr boten, startete Qualcomm einen neuen Anlauf: Mas 802.11ac Wave 2 mit 2×2-MIMO bringt bis zu 700 Mbit/s. Gegenüber einem externen in 28 nm gefertigten WiFi-Chip konnten Größe und Leistungsaufnahme halbiert werden.

Als letzten Chip im Konnektivitätssubsystem unterstützt der WCN3990 mit dem WiFi-HF-Teil auch Bluetooth 5.0 (!) sowie FM-Radio. Was fehlt, ist NFC. Doch aufgrund des Kaufes von NXP, dem NFC-Marktführer, ist es wohl nur eine Frage der Zeit, bis Snap­dragon auch dies noch integriert hat. 

Single-Thread pfui, Multi-Thread hui! 

Im Vergleich zur Konkurrenz schlägt sich der neue Snapdragon 835 durchwachsen, wobei dies Nörgeln auf hohem Niveau ist. Wie die Tabelle zeigt, geht Snapdragon 835 in der Single-Thread-CPU-Rechenleistung im Vergleich zu Apples-A10 mit dessen selbstdesignter »Hurricane«-CPU unter. Auch gegenüber seinem Vorgänger 821 und Huaweis Kirin 960 kann er sich nicht profilieren. Im Multicore-Betrieb hingegen führt er das Feld zusammen mit dem Kirin 960 an, welcher die identische CPU-Konfiguration und ähnliche Taktfrequenzen aufweist. 

Um bei der GPU-Leistung mit Qualcomm mithalten zu können, hat Huawei die Anzahl der Schattierer gegenüber dem Vorgänger Kirin-950 auf acht verdoppelt und ist zu ARMs G71-Maili-Architektur gewechselt. Wegen TSMCs 16-nm-FF+-Prozess kann Huawei die Adreno-540-GPU dennoch nicht gefährden. Lediglich bei einem Grafik-Benchmark, dem IceStorm Unlimited, sticht Apples A10 heraus.

Was die Energieeffizienz angeht, ist der Snapdragon wegen der 10-nm-Fertigung überlegen: Neben dem größeren Cache für die Little-CPUs ist dabei auch die Unterstützung von LPDDR4X-DRAM bis zu 2,4 GHz zu nennen, was gegenüber LPDDR4 die Leistungsaufnahme um rund 20 % reduziert.

Anzumerken ist noch: Während Apple gar keine Konnektivität-on-Chip aufweist, kommt Kirin 960 trotz 4×Carrier-­Aggregation, 4×4 MIMO und QAM-256 auf »nur« 600 Mbit/s. Ende 2017 wollen AT&T, Deutsche Telekom, NTT DoCoMo (Japan), Sprint und Vodafone und andere ihre Gbit-LTE-Netzwerke ausrollen, sodass sich der Snapdragon 835 in diesem Umfeld gut vermarkten lassen dürfte. 

Snapdragon 845 bringt viele Neuerungen

Dank Samsungs 10-nm-Fertigung konnte Qualcomm mit überschaubarem Aufwand in den Wertungsdisziplinen CPU, GPU und DSP punkten. Die Koreaner schenkten den Kaliforniern quasi 20 % bis 25 % mehr Energieeffizienz, dazu kommt ein sensationelles Modem mit noch sensationelleren Companion-Chips, die im Markt ihresgleichen suchen. 

Der Nachfolger Snapdragon 845 wird dieses Geschenk, eine 7-nm-Fertigung, nicht bekommen. Es ist daher davon auszugehen, dass es signifikante Überarbeitungen an der GPU- und DSP-Architektur geben wird, dazu möglicherweise erweiterte Veränderungen eines dann aktuellen ARM Cortex-A75 als Nachfolger des A-73 – auch wenn dies auf Kosten der »Time to Market« gehen und deswegen weniger attraktiv sein könnte.

Auf jeden Fall ist der Deal mit ARM bezüglich einer »Veränderungslizenz für ARM-CPUs« wirtschaftlich sinnvoll: Qualcomms Marktanteil bei High-End-Smartphones ist auf knapp über 30 % gefallen, da neben Apple nunmehr auch Samsung und Huawei ihre eigenen CPUs designt haben oder eigene SoCs einbauen.

Da der Markt selbst nicht mehr wächst, machen die riesigen Investitionen in eigene Mobilgeräte-CPUs keinen Sinn mehr, zumal technisch die Luft immer dünner wird. Der Cortex-A73 und erst der -A75 von ARM sind schlicht zu gut, um noch viel mehr Rechenleistung und/oder Energieeffizienz herauskitzeln zu können.(fr)

Referenzen 

[1] Riemenschneider, F.: Moore‘s Law von der Schippe gesprungen. DESIGN&ELEKTRONIK 2017, Ausgabe 4, S. 18 ff.

[2] Riemenschneider, F.: ARM Cortex-A73 toppt High-End-CPUs. DESIGN&ELEKTRONIK 2016, Ausgabe 12, S. 26ff.
 


Lesen Sie mehr zum Thema


Das könnte Sie auch interessieren

Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu QUALCOMM CDMA Technologies GmbH

Weitere Artikel zu Industrie-Computer / Embedded PC