Design für die Automobilindustrie Cortex-A65AE: Erste Multithreading-CPU von Arm

Arms erste SMT-CPU für den Automobilbereich: Der Cortex-A65AE.
Arms erste SMT-CPU für den Automobilbereich: Der Cortex-A65AE.

Bereits im September hatte Arm die Cortex-A76AE-CPU für Automobilanwendungen angekündigt. Kurz vor Jahresschluß erfolgte nun eine weitere Ankündigung für den Cortex-A65AE, die erste Arm-CPU mit simultanem Multithreading (SMT).

Der vom „herkömmlichen“ Cortex-A76 abstammende Cortex-A76AE basiert auf dessen Hochleistungs-Mikroarchitektur, die auf rechenintensive Aufgaben zielt. Bei seiner Vorstellung im September wurde von einer weiteren CPU gesprochen, die unter dem Codenamen „Helios“ entwickelt wurde und den „kleinen“ Begleiter des A76AE spielen sollte.

Der Cortex-A76AE war die erste CPU von Arm, die über die "Split-Lock"-Technologie verfügte, die es zwei CPU-Kernen ermöglicht, in einem konfigurierbaren Lock-Step-Betriebsmodus zu arbeiten, so dass die Einheiten zur Erreichung der Anforderungen an funktionale Sicherheit Aufgaben parallel zueinander verarbeiten und die Ergebnisse auf Abweichungen vergleichen konnten. In unserer Vorstellung des Cortex-A76AE sind wir darauf ausführlich eingegangen.

Der Arm Cortex-A65AE

Nach jüngsten Daten von AAA haben 73% der amerikanischen Fahrer zu viel Angst, um in voll autonomen Fahrzeugen zu fahren, und 63% der US-Erwachsenen fühlen sich weniger sicher, wenn sie die Straße mit selbstfahrenden Fahrzeugen zu Fuß oder mit dem Fahrrad teilen. Die menschliche Akzeptanz neuer fortschrittlicher Fahrerassistenzsysteme (ADAS) und zunehmend autonomer Technologien wird nur dann erfolgen, wenn sich Fahrer und Fahrgäste sicher fühlen, sich auf sie zu verlassen.

Das Vertrauen der Verbraucher zu gewinnen ist entscheidend, und um diese vertrauenswürdigen Erfahrungen zu liefern, benötigen die Automobilhersteller Lösungen, die das richtige Gleichgewicht zwischen Innovation und Sicherheit erreichen und gleichzeitig einsatzbereit, skalierbar und serienreif sind. In regelmäßigen Gesprächen mit führenden OEMs und Zulieferern wurde Arm klar, dass ein breites Spektrum an Berechnungen erforderlich ist, um den Anforderungen der Fahrzeuge von morgen gerecht zu werden, und eine einzige CPU wird nicht allen Anforderungen gerecht.

Während sich der Cortex-A76AE auf Anwendungen konzentriert, bei denen eine hohe Single-Thread-Rechenleistung erforderlich ist, wurde der Cortex-A65AE für Anwendungen mit hohem Durchsatz und parallelisierbaren Workloads entwickelt, wie z.B. die Anforderung an die Sensorverarbeitung im autonomen Fahren. Hier soll die Anzahl der Sensoren in einem Auto massiv zunehmen und mit ihr auch der Bedarf an höherer Durchsatzleistung.

Erste SMT-Mikroarchitektur von Arm überhaupt

Der Cortex-A65AE ist die erste multi-threaded CPU von Arm und ermöglicht es, zwei Threads pro CPU auszuführen. SMT ist natürlich im primären automobilen Anwendungsbereich des Cortex-A65AE mit einer großen Zahl von Sensordaten, die alle gleichzeitig dem zentralen Steuergerät eines Autos zugeführt werden, sinnvoll. Leider hielt sich Arm hinsichtlich Details der ASIL-D-konformen Mikroarchitektur sehr zurück. Rückschlüsse auf Grund des verantwortlichen Design-Centers zu ziehen, ist ebenfalls unmöglich, da er als erste Arm-CPU überhaupt von einem neuen in Chandler, Arizona, ansässigen Team entwickelt wurde und nicht in einem der drei bisherigen Design-Center in Cambridge, Sophia Antipolis oder Austin.

Die einzige offizielle Aussage lautet bislang, dass die CPU einen um Faktor 3,5 höheren Durchsatz haben soll als die Vorgängergeneration, was in diesem Fall der Cortex-A53 ist. Wenn man dem Multithreading einen Faktor um 1,9 zugesteht (Faktor 2 ist wegen des Overheads beim Thread-Wechsel praktisch nicht erreichbar), muss der Rest über höhere Taktfrequenzen und IPC-Verbesserungen auf Basis einer optimierten Mikroarchitektur kommen. Ersteres erscheint sehr realistisch zu sein, da der Cortex-A65AE für einen Einsatz in einem 7-nm-Prozess konzipiert wurde. Die hohe Energieeffizienz im praktischen Einsatz im Vergleich zu früheren Generationen ist vor allem auf die SoC-Implementierung, konkret eine Arm Mali-C71-GPU und einen Beschleuniger-Kohärenzport (ACP), zurückzuführen, die optional an Chips mit dedizierten Arm-ML-Koprozessoren für heterogene Rechenaufgaben angeschlossen werden können. Arm sagt, dass der Cortex-A65AE so konzipiert ist, dass er zusammen mit Begleitchips wie dem Cortex-A76AE als Teil eines Compute-Clusters arbeitet, und behauptet, dass er aufgrund von Compiler-, NEON- und Vektorisierungsverbesserungen eine höhere Rechenleistung liefert als konkurrierende ADAS-Hardwareplattformen.

Bemerkenswert ist die SMT-Implementierung im Hinblick auf den Lock-Step-Betrieb. Ähnlich wie der "Split-Lock"-Modus auf dem Cortex-A76AE, bei dem zwei physische CPU-Cores im Lock-Step miteinander arbeiten können, kann der Cortex-A65AE dies auch nicht nur auf physikalischer CPU-Ebene, sondern auch auf Thread-Ebene. Eine Cortex-A65AE-CPU kann also zwei Threads im Lock-Step auf demselben Core betreiben. Hier wird der Befehlsstrom und jede Befehlsausgabe auf Diskrepanzen auf Hardwareebene überprüft, was für die Software transparent ist.

Das Bild zeigt ein Anwendungsbeispiel, bei dem mehrere Cortex-A65AE-CPUs in einem Cluster unabhängig voneinander im "Split"-Modus arbeiten, was ihren Durchsatz bei der Sensordatenerfassung maximiert. Die Datenverarbeitung wird dann an verschiedene Cluster für Wahrnehmungs- und Entscheidungsaufgaben weitergegeben. Hier würden die CPUs auf Grund höherer Anforderungen an funktionale Sicherheit im Lock-Step-Modus arbeiten. Der Betrieb im Split-Modus bzw. Lock-Step-Modus wird übrigens auf Firmware-Ebene festgelegt, so dass alles mit einem Software-Update neu konfiguriert werden kann.

Fazit

Der Cortex-A65AE beinhaltet eine neue Mikroarchitektur, die in den traditionellen mobilen und embedded Märkten von Arm noch nicht erschienen ist. Dort, wo die Energieeffizienz die höchste Priorität hat, würde SMT auch kaum Sinn machen. Spannend ist nicht nur die Frage, ob es diese SMT-Architektur irgendwann auch auf anderen Arm-CPUs geben wird, z.B. im Rahmen seiner Neoverse-Produkte für Rechenzentren. Was auf jeden Fall spektakulär ist, ist ein Lock-Step-Betrieb entweder auf einer CPU über Multithreading oder alternativ ganz traditionell über mehrere CPUs. Auch wenn es heute noch keine konkreten Zahlen gibt, wird sich die Rechenleistung des Cortex-A65AE nach unserer Annahme im Ziel-Prozess (7 nm) mit seiner Zielfrequenz im Bereich eines in 28 nm implementierten Cortex-A73 bewegen – für einen „Little“-Core wahrlich kein schlechter Wert.

Bilder: 7

Arms erster SMT-Prozessor Cortex-A65AE

Für ADAS-Plattformen und autonomes Fahren hat Arm seinen ersten SMT-Prozessor überhaupt vorgestellt.