Startseite > Halbleiter > Prozessoren > Noch vor wenigen Jahren undenkbar: ARM-CTO Mike Muller hält Keynote bei AMD

AMD goes ARM

Noch vor wenigen Jahren undenkbar: ARM-CTO Mike Muller hält Keynote bei AMD

25. November 2013, 16:51 Uhr | Frank Riemenschneider

▶ Diesen Artikel anhören

Fortsetzung des Artikels von Teil 1

SIMT als Beschleunigungswerkzeug für Prozessoren

Als zweiten Punkt in seiner Keynote beschäftigte sich Muller mit der Frage, wie man die Rechenleistung durch architektonsiche Verbesserungen, also nicht mit immer höheren Taktfrequenzen oder mehr Cores, verbessern kann.

Ausgehend von ARMs Big.LITTLE-Prozessing-Modell stellt er einen Ansatz aus der ARM-Forschung vor, der an sich nicht neu ist, allerdings noch nicht bei Allzweck-Prozessoren eingesetzt wurde: SIMT (Single Instruction Multiple Threads). Dieses Verfahren wurde von NVIDIA für Grafik-Prozessoren (GPUs) entwickelt und wurde von ARM offenbar für Forschungszwecke in einen Allzweck-Prozessor portiert (Bild). Au seiner SIMT-Warteschlange werden Instruktionen parallel in drei Pipelines (Integer, Gleitkomma und Laden/Speichern) abgearbeitet, was den Vorteil hat, dass gegenüber anderen Programmiermodellen z.B. mit dem C++-Modell weitergearbeitet werden kann.

Natürlich gibt es auch andere Methoden zur Beschleunigung, diese haben allerdings einen hohen Portierungsaufwand. In der Tabelle zeigte Muller einige Alternativen auf, um den bekannten Matrizen-Multiplikations-Benchmark SGEMM zu beschleunigen. Ausgangspunkt war einen Implementierung in gewöhnlichem “C”, schon ARMs NEON-Engine mit ihren SIMD-Befehlen führte zu einer Verbesserung um Faktor 15 – der Portierungsaufwand ist allerdings nicht vernachlässigbar. Wird das ganze in Assembler umgeschrieben, steigt der Durchsatz sogar um Faktor 26, allerdings auf Kosten eines gigantischen Codierungsaufwandes.

Bleibt man in C und nutzt ARMs SIMT-Architektur, schlängt man 2 Fliegen mit einer Klappe: Die Berechnung beschleunigt sich um Faktor 35, während der Anpassungsaufwand gering ist. Mit Loop-Unrolling steigt die Beschleunigung sogar auf Faktor 44.

Der einzige Weg, die SGEMM-Applikation noch weiter zu beschleunigen, ist eine Portierung auf eine GPU – hier sit sogar Faktor 136 drin, allerdings ist der Aufwand auf Grund der völlig unterschiedlichen Programmiermodelle von CPU und GPU riesig.

Jobangebote+ passend zum Thema

Techniker der Bereiche Elektrotechnik / Mechatronik m/w/d im Innen- und Außendienst

SPEA GmbH, Fernwald

Trainee Vertrieb und Produktmanagement (m/w/d) für Bachelorabsolventen

GLYN GmbH & Co. KG, Idstein

Auszubildende zum Kaufmann für Groß- und Außenhandelsmanagement (m/w/d) FR Großhandel mit dem Schwerpunkt Vertrieb

GLYN GmbH & Co. KG, Idstein

Alle Jobangebote im Elektroniknet Karrierebereich anzeigen

SGEMM-Implementierung	Beschleunigungsfaktor	Portierungsaufwand
ARM in C	1	Gering
ARM in C mit NEON-SIMD-Befehlen und Prefetching	15	Mittel bis Hoch
ARM in Assembler mit NEON-SIMD-Befehlen und Prefetching	26	Hoch
SIMT-ARM in C	35	Gering
SIMT-ARM in C und Loop-Unrolling	44	Gering bis Mittel
Mali GPU (4-Wege-Prozessing)	136	Hoch

Darstellung unterschiedlicher Wege, die Applikation SGEMM, einen Matrizen-Multiplikations-Benchmark, zu beschleunigen. Quelle: ARM

Noch vor wenigen Jahren undenkbar: ARM-CTO Mike Muller hält Keynote bei AMD
SIMT als Beschleunigungswerkzeug für Prozessoren

Grafikprozessor

Die Ära des Surround Computing

Server-Prozessor

AMD kündigt Opteron-Prozessor mit ARM-Kernen an

AMD goes ARM

Noch vor wenigen Jahren undenkbar: ARM-CTO Mike Muller hält Keynote bei AMD

SIMT als Beschleunigungswerkzeug für Prozessoren

Jobangebote+ passend zum Thema

Grafikprozessor

Die Ära des Surround Computing

Server-Prozessor

AMD kündigt Opteron-Prozessor mit ARM-Kernen an

Plattform für SDVs

CHASSIS: Noch eine europäische Automotive-Chiplet-Initiative

Rechtsstreit um Lizenzvereinbarung

Qualcomm gewinnt vor Gericht endgültig gegen Arm

Windows und Arm zusammenführen

Schneller Einstieg in die Entwicklung unter Windows-on-Arm

Kooperative Forschung

Viele Mitglieder beim Automotive-Chiplet-Programm vom imec

Erste Schritte mit dem Entwicklungskit

Schnell in die Entwicklung unter Windows on Arm einsteigen

AMD

Midrange-FPGAs: Kintex UltraScale+ Gen2

KI, Rechenzentren, Endgeräte, Automotive

Die neue Halbleiter-Generation

KI-Infrastruktur

AMD, Cisco und Humain gründen Joint Venture

AMD

Neue Embedded Prozessoren

6 Gigawatt

Strategische Partnerschaf zwischen AMD und OpenAI

AMD goes ARM

Noch vor wenigen Jahren undenkbar: ARM-CTO Mike Muller hält Keynote bei AMD

SIMT als Beschleunigungswerkzeug für Prozessoren

Jobangebote+ passend zum Thema

Lesen Sie mehr zum Thema

Das könnte Sie auch interessieren

Grafikprozessor

Die Ära des Surround Computing

Server-Prozessor

AMD kündigt Opteron-Prozessor mit ARM-Kernen an

Weitere Artikel zu ARM Germany GmbH

Plattform für SDVs

CHASSIS: Noch eine europäische Automotive-Chiplet-Initiative

Rechtsstreit um Lizenzvereinbarung

Qualcomm gewinnt vor Gericht endgültig gegen Arm

Windows und Arm zusammenführen

Schneller Einstieg in die Entwicklung unter Windows-on-Arm

Kooperative Forschung

Viele Mitglieder beim Automotive-Chiplet-Programm vom imec

Erste Schritte mit dem Entwicklungskit

Schnell in die Entwicklung unter Windows on Arm einsteigen

Weitere Artikel zu AMD Advanced Micro Devices GmbH

AMD

Midrange-FPGAs: Kintex UltraScale+ Gen2

KI, Rechenzentren, Endgeräte, Automotive

Die neue Halbleiter-Generation

KI-Infrastruktur

AMD, Cisco und Humain gründen Joint Venture

AMD

Neue Embedded Prozessoren

6 Gigawatt

Strategische Partnerschaf zwischen AMD und OpenAI