Es ist etwas weniger als 2 Jahre her, dass Arm den Cortex-A76AE-Prozessor als erstes dediziertes High-End-CPU-Design für Sicherheitsanwendungen angekündigt hat.
In der Zwischenzeit hat sich viel getan: Technologien der autonomen Entscheidungsfindung dringen rasch in den Automobilsektor vor und verlangen gleichzeitig, dass die Anforderungen an Sicherheit und funktionale Sicherheit weiterhin erfüllt werden. Ebenso hat sich der Anwendungsbereich exponentiell erweitert: Self-Parking ist Realität (oder steht kurz davor), aber von besonderer Bedeutung ist die Anwendung der zugrunde liegenden Technologien in Segmenten wie der industriellen Lagerhaltung und der autonomen Fertigung. Es liegt auf der Hand, dass die Forderung nach hoher Rechenleistung und nachweisbarer Sicherheit für eine Vielzahl von Marktsegmenten von großem Interesse ist.
Das neueste Mitglied der AE-Familie von CPUs, der Cortex-A78AE, soll den ständig wachsenden Bedarf an hoher Rechenleistung decken. Die funktionale Sicherheit entwickelt sich zu einer Ära der gemischten Sicherheitskritik, die durch den Übergang zu Domänencontrollern in automobilen E/E-Architekturen gekennzeichnet ist. Die Kolokation mehrerer Anwendungsthreads auf einer gemeinsamen Software-Entität stellt einige interessante Herausforderungen in Bezug auf Thread-Management, Reaktionsfähigkeit und Umschaltzeiten zwischen Anwendungen dar.
Auf der industriellen Seite wirft die Bereitstellung einer gemeinsamen Standard-Infrastruktur für die IT und die Anbindung der OT-Domäne (operationelle Technologien) an das Netzwerk Fragen hinsichtlich der Sicherheit und der garantierten Zykluszeiten auf. Ein roter Faden, der sich durch all diese Themen zieht, ist der Wunsch nach einer ständig steigenden Single-Thread-Rechenleistung.
Gleichermaßen stoßen sowohl der Automobil- als auch der Industriebereich zunehmend an die thermische Wand, wo einsetzbare Lösungen durch die Grenzen der Verlustleistung des Systems begrenzt sind. Schließlich diktiert die Dynamik der Industrie, dass die Wiederverwendung maximiert werden muss, wo immer dies möglich ist, insbesondere angesichts der Kosten des Chipdesigns in den neueren Prozessgeometrien. Dies gilt insbesondere für Partner, die mehrere Marktsegmente bedienen. Unterm Strich braucht die Industrie eine Steigerung der Single-Thread-Rechenleistung, die mit einer verbesserten Energieeffizienz und höchster Sicherheit einhergeht.
Beim Cortex-A78AE wurde die Mikroarchitektur wurde an mehreren Fronten überarbeitet - zusätzliche Fetch-Bandbreite, verbesserte Sprungvorhersage, geringere Fehlvorhersage-Latenzen, breitere Integer-Pipeline und ein Speichersubsystem mit 50 % höherer Bandbreite als bei der vorherigen Generation.
Von besonderer Bedeutung ist die Einführung des Macro-Operation-Cache, einer Struktur zur Aufnahme dekodierter Anweisungen, die die Fetch-Engines von der Ausführung entkoppelt und dadurch eine dynamische Code-Sequenzoptimierung ermöglicht. Zusammen führen diese Innovationen zu einer Leistungssteigerung von über 30 % bei der synthetischen Benchmark-Suite Spec2006 - sowohl bei Integer- als auch bei Fließkomma-Routinen.
Der Cortex-A78AE verbessert gleichzeitig die Rechenleistung pro W. Tatsächlich wird die Rechenleistung des Cortex-A76AE bei einer 7-nm-Implementierung mit 60 % weniger Energieverbrauch erreicht. Bei gleichem Energieverbrauch bietet der Cortex-A78AE eine Rechenleistungssteigerung von 25 %.
Weitere Details über die Mikrorchitektur der CPU können unserem Artikel über den Cortex-A78, der Konsumer-Variante der CPU, entnommnen werden
Bei der hohen Arbeitsbelastung in der Robotik und beim autonomen Fahren ist die Multithreading-Leistung ebenso entscheidend. Der Cortex-A78AE kann, wie sein Vorgänger, in CPU-Clustern bis zu einem Maximum von 4 Cores skaliert werden.
Mehrere Cluster können zusammen mit dem CMN-600AE gruppiert werden, um eine Implementierung mit noch mehr Cores zu ermöglichen. Für wirklich leistungsorientierte Anwendungen ist eine Multi-Chip/Chiplet-Erweiterung unter Verwendung der CCIX-Chip-to-Chip-Erweiterungen eine Option.
Und da sowohl Fahrzeuge als auch die Fabrikhalle zunehmend mit der übrigen Infrastruktur verbunden sind, rücken Cyber-Sicherheitsbedenken in den Mittelpunkt. Arm verfügt über diverse Funktionen, auf die Halbleiterhersteller ihre Sicherheitslösungen aufbauen können, und die erste dieser Funktionen erscheint im Cortex-A78AE - Pointer Authentication (PAC). Das PAC und die verbesserte Versionn PAC2 zielen darauf ab, Schwachstellen in Return-Oriented-Programming, der statistisch gesehen häufigsten Form von Software-Exploits, abzusichern, und bieten eine kryptographische Überprüfung der Stack-Adressen, bevor diese auf den Programmzähler gelegt werden.
Als der Cortex-A76AE die Split-Lock-Architektur einführte, wurde dies allgemein als die Geburtsstunde einer neuen Ära des sicheren Rechnens angesehen. Die rechtzeitige Erkennung von Fehlern in der Logik trägt wesentlich zur Lösung von Problemen der funktionalen Sicherheit bei, wie sie von Industrienormen wie ISO 26262/IEC 61508 diktiert werden.
Aber neue Architekturen bringen neue Herausforderungen mit sich - Verfügbarkeit, ASIL B-Unterstützung und systemweite funktionale Sicherheit. Der Cortex-A78AE begegnet diesen Herausforderungen mit einer Reihe von Sicherheitsmerkmalen. Zusätzlich zum Split-Modus gibt es nunmehr auch einen sogenannten Hybrid-Modus - eine Weiterentwicklung, die es der gemeinsam genutzten DSU-AE-Logik ermöglicht, im Lock-Modus weiter zu arbeiten, während die CPUs unabhängig bleiben (Split). Die zusätzliche Abdeckung der DSU-AE zählt zur diagnostischen Abdeckung in der FMEDA (die Fehlerarten, Auswirkungen und diagnostische Analyse (FMEDA) ist eine systematische Analysetechnik zur Ermittlung von Ausfallraten, Fehlerarten und Diagnosefähigkeiten auf Subsystem-/Produktebene) und die CPUs können einzeln für Tests offline genommen werden, während der Cluster selbst für die Berechnung verfügbar bleibt, wenn auch mit einer reduzierten Rechenkapazität. Damit wird der dringenden Sorge um die Verfügbarkeit der Automobil- und Industriekunden Rechnung getragen, die sich keine Ausfallzeiten bei unternehmenskritischen Anwendungen wie industriellen Lagerrobotern leisten können.
Und während Standard-Sicherheitsmaßnahmen wie die Cache-Schutzlogik im Cortex-A78AE weiterhin obligatorisch sind, wird die Verfügbarkeit durch die zusätzliche Unterstützung von Leitungssperren weiter verbessert, um zu vermeiden, dass “schlechte Stellen” in den Cache-Strukturen getroffen werden. Schließlich ist der Cortex-A78AE mit AMBA-Paritätsschutzfunktionen ausgestattet, die so konzipiert sind, dass sie mit Arms AE-IP-Portfolio zusammenarbeitet. Dies ist eine einfache und validierte Möglichkeit, funktionale Sicherheit auf den Rest des SoC auszudehnen und so das Ziel der End-to-End (E2E)-Schutzfähigkeit zu erreichen.
Zusätzlich zu den in der CPU enthaltenen Sicherheitsmerkmalen muss die physische IP für autonome Anwendungen eine höhere Messlatte in Bezug auf Zuverlässigkeit und Testbarkeit erreichen. Die physische IP von Arm Artisan umfasst sicherheitsfertige Produkte, die für Industrie- und Automobilmärkte optimiert sind, und basiert auf zertifizierten Fertigungsprozessen für eine risikoarme Einführung.
So hoch die Rechenleistung des Cortex-A78AE auch ist, die Rechenplattformen im Automobil- und Industriebereich erfordern eine komplexe Mischung aus Energieeffizienz und Rechendurchsatz.
Einfach ausgedrückt, keine Mikroarchitektur erfüllt die Anwendungsanforderungen dieser Marktsegmente. Ein Beispiel: Eine autonome Antriebsplattform muss Daten erfassen, Hindernisse erkennen und den richtigen Pfadvektor bestimmen, bevor sie die Fahrzeugsteuerung betätigt. Nur die zweite und dritte Aufgabe erfordern eine enorme Vielfalt an Algorithmen-Verarbeitung. Zu diesem Zweck unterstützt die CPU die Möglichkeit, neben Speicherschnittstellen und -typen in einer Vielzahl von Cache-Größen - über L1, L2 und L3 - konfiguriert zu werden. Der Cortex-A78AE kann in heterogenen Rechen-Clustern auch mit dem Cortex-A65AE gepaart werden und kann über den Accelerator Coherence Port (ACP) mit Beschleunigern gekoppelt werden. Ein Peripherie-Port mit niedriger Latenzzeit ist für dedizierte Systemschnittstellen-Controller von Nutzen, während die IPs CMN-600AE und MMU-600AE auf dem CHI-Protokoll basierende NPUs und Mehrzweck-GPU-Blöcke innerhalb der Kohärenzdomäne des CPU-Clusters unterstützen. Diese Produkte bieten dem Systemdesigner die Möglichkeit, die Größe der Plattform an die jeweilige Aufgabe anzupassen.
Der erweiterte dynamische Bereich des Cortex-A78AE in Verbindung mit der Split-Lock-Fähigkeit bietet eine weitere Dimension der Heterogenität, insbesondere für Kunden, die Architekturen in verschiedenen Marktsegmenten einsetzen wollen. Ein Kunde aus der Automobilindustrie kann dieselbe zugrundeliegende Berechnungsarchitektur über IVI- und autonome Antriebssysteme hinweg wiederverwenden, indem er Konfigurationen, Betriebs-/Implementierungspunkte und natürlich den Sicherheitsbetriebsmodus variiert, um drastisch unterschiedliche PPA und Leistungspunkte zu erhalten.
Software-Tools für die autonome Entwicklung
Es ist kein Geheimnis, dass die zukünftige Generation der durch Cortex-A78AE ermöglichten Hardware-Plattformen durch Software definiert wird. Der Weg zur Autonomie hängt von Millionen von Codezeilen ab, die noch geschrieben und validiert werden müssen. Aus diesem Grund haben Arm und seine Ökosystempartner Produkte und Technologien entwickelt, die darauf abzielen, Softwareentwicklungen der gesamten Lieferkette erheblich zu beschleunigen.
Ein Beispiel sind die sogenannten “Arm Fast Models”, mit denen funktionsgenaue virtuelle Plattformen aufgebaut werden können, die eine Softwareentwicklung im großen Maßstab und eine cloud-basierte Validierung weit vor der Verfügbarkeit von Hardware ermöglichen. In Kombination mit dem Arm Development Studio, das den Arm Compiler for Safety enthält, der vom TÜV SÜD für den Einsatz auf höchstem Sicherheitsintegritätsniveau qualifiziert wurde, können Anwender somit von einer integrierten Entwicklungsumgebung profitieren.