Wer sich im Zeitalter der Digitalisierung und KI Wettbewerbsvorteile sichern möchte, muss technische Errungenschaften geschickt nutzen und eigene Produkt-Roadmaps flexibel und nachhaltig gestalten. Embedded-Module mit aktuellen Intel-x86-Prozessorplattformen können hier besondere Vorteile bieten.
Mit der 12. Generation Intel-Core-Prozessoren (»Alder Lake-P«) hat Intel die Performance-Hybrid-Architektur eingeführt, die der Prozessorhersteller zwischenzeitlich mit der 13. Generation (»Raptor Lake-P«) erfolgreich fortführt. Mit der Kombination aus energieeffizienten »Efficient-Cores« (E-Cores) und leistungsoptimierten »Performance-Cores« (P-Cores) können Entwickler die Leistungsfähigkeit eines Systems mit unterschiedlichen, parallel laufenden Prozessen optimieren und gleichzeitig den Gesamtenergiebedarf minimieren. Zusätzliche Leistung und Effizienzsteigerung gewährleistet die neue, integrierte Grafikarchitektur »Iris Xe«, die mit bis zu 96 parallel nutzbaren Grafik-Execution-Units sowie neuen Hardware-Video-Encodern/ -Decodern im Vergleich zu Vorgängerversionen ein Vielfaches an Grafik-Performance bietet. Neue Optionen bietet hierbei die Kombination aus den unterschiedlichen CPU-Kernen, der Grafik und den neuen Befehlssätzen für neuronale Netze (Vector Neural Network Instructions, VNNI) inklusive Deep-Learning-Boost.
Die Fokussierung auf Leistungseffizienz sowie die gestiegenen Anforderungen im IT-Umfeld – sei es im privaten oder beruflichen Bereich – haben die Entwicklungen maßgeblich vorangetrieben. Anwender von mobilen Geräten kommen dadurch in den Genuss von hoher Rechenleistung und gleichzeitig längerer Akkulaufzeit. Aufgrund der reduzierten Verlustleistung fallen zudem weniger Kosten und Platzbedarf für die Kühlung an, womit Geräte kompakter realisierbar sind. Je nach Einsatzfall lassen sich ebenfalls die Netzteile kleiner und günstiger dimensionieren, was ebenfalls zu Miniaturisierung, Kosteneinsparung und Nachhaltigkeit beiträgt. Mit dem Bereitstellen besonders langfristig verfügbarerer Derivate der 12. und 13. Generation der Core-Mobile-Prozessoren, können ebenfalls Embedded-Applikationen von der neuen Technologie profitieren.
Die neuen x86-Prozessoren von Intel bieten jedoch noch wesentlich mehr Aspekte, die für Embedded-Applikationen interessant sind. Besonders hervorzuheben ist dabei die umfassende Softwareunterstützung – vom Betriebssystem über Hypervisor bis hin zu Gerätetreibern und Applikationen. Weitere wichtige Themen sind Virtualisierung und Echtzeitunterstützung, aber auch Optimierungen im Bereich Video-Encoding/-Decoding, was speziell im Bereich hochauflösender Medienverarbeitung zum Tragen kommt. Auch die Vielfalt von unterschiedlichen Prozessorausführungen, die Entwickler innerhalb eines Designs einsetzen können, bieten für Embedded-Applikationen neue Skalierungsmöglichkeiten sowie Optimierungspotenzial bezüglich Preis, Leistung und Funktionsumfang.
Auf Basis des weltweit etablierten Embedded-Modul-Standards COM Express Compact bietet TQ mit den Modulserien »TQMx120_C« sowie »TQMx130_C« die Möglichkeit, alle Embedded-CPU-Varianten der neuen Prozessorfamilien in Embedded- Applikationen zu integrieren (Bild 1). Was bedeutet das konkret für das Realisieren neuer PC-basierter Embedded-Systeme?
Bei älteren Generationen der Core-Prozessor-Familien mussten sich Anwender von Embedded- Applikationen bereits zu einem sehr frühen Zeitpunkt Gedanken machen, welches Leistungssegment für die Applikation passt: Besonders sparsame Dual-Core- und Quad-Core-Varianten, die im Verlustleistungsbereich von 15 W angesiedelt sind, wurden als Ball-Grid-Array(BGA)-Single-Chip (U-Serie) angeboten und sind auf sehr kompakten Single-Board-Computern (SBCs) oder Computer-on-Module(CoM)-Formfaktoren wie COM Express Compact (mit 95 mm x 95 mm) zu finden. Wer damit jedoch an die Grenzen stieß, musste in der Vergangenheit auf Zwei-Chip-Derivate (die sogenannte H-Serie) wechseln, die mit einer deutlich höheren Verlustleistung (Thermal Design Power, TDP, von 35 W bis 45 W) und spürbar erhöhtem Platzbedarf einhergingen. Hierfür galt es SBCs größer zu konzipieren, ebenfalls mussten modulare Ansätze auf größere Formfaktoren wie COM Express Basic (mit 95 mm x 125 mm) wechseln.
Mit der 12. und 13. Generation Core-Mobile-Prozessoren vereint Intel drei Leistungsklassen in einem Single-Chip-Design. Hiermit ist es möglich, ein universelles, sehr kompaktes Modul aufzusetzen, das alle Prozessoren im Leistungsbereich von 12 W bis 45 W berücksichtigt. Somit ist ein zweidimensionales Skalieren möglich: Sowohl in der U15-Serie (12/15 W), als auch in der P28- (20-35 W) und H45-Serie (35/45 W) sind jeweils die Derivate Intel Core i3, i5 und i7 erhältlich. Je nach Serie sind Varianten mit bis zu sechs Performance- und acht Efficient-Cores erhältlich.
Hierbei unterscheiden sich die Prozessoren aber nicht nur in der Anzahl der verschiedenen CPU-Kerne und der möglichen Taktfrequenzen. Welch großen Stellenwert hierbei Skalierung und Leistungsfähigkeit der integrierten Grafik einnehmen, lässt sich an der Spezifikation der einzelnen Prozessor-Derivate erkennen (Tabelle 1). Die kleinste Ausbaustufe umfasst bereits 48 Grafik-Execution-Units mit 1,1 GHz und setzt einen wichtigen Schwerpunkt in der Gesamt-Performance dieser Prozessorvariante. Die volle Grafik-Performance wird mit 96 Grafik-Execution-Units mit 1,4 GHz erreicht. Im Zusammenspiel mit bis zu 14 CPU-Cores (6P + 8E) und 24 MB internem Cache-Speicher für anspruchsvolle Grafik- und KI-Applikationen bieten sich hiermit optimale Voraussetzungen.
Für eine kompakte Integration in industrielle Applikationen bietet sich der Einsatz von Computer-on-Modules an, beispielsweise im Formfaktor COM Express Compact. Die quadratischen Maße von 95 mm x 95 mm bieten einen guten Rahmen für hochintegrierte industrielle Produkte. Um eine optimale Gesamt-Performance zu gewährleisten, kombiniert TQ auf den Modulserien »TQMx120_C« und »TQMx130_C« die Prozessoren mit zwei DDR5-SO-DIMM-Steckplätzen, die bis zu 64 GB Speicherausbau ermöglichen. Die 2.5-Gigabit-Ethernet-Schnittstelle stellt eine schnelle Netzwerkanbindung bereit. USB-Vision-Applikationen beispielweise profitieren von der direkten Anbindung von Kameras über USB 3.2 mit bis zu 10 Gbit/s je Schnittstelle. Mit dem Design individueller Carrier Boards, auf die sich die Module aufstecken lassen, sind anwendungsspezifische Anforderungen schnell umsetzbar.
Für netzwerkorientierte Anwendungen lassen sich über schnelles PCIe beispielsweise zahlreiche Ethernet-Schnittstellen realisieren, bei Bedarf auch mit 10 Gbit/s oder Power-over-Ethernet (PoE) bzw. ebenfalls galvanisch entkoppelt über Small-Formfactor-Pluggable(SFP)-Module. Auch für Massenspeicher und Interface-Karten, die für die Anbindung an Prozessanlagen und I/Os fungieren, lassen sich entsprechende Steckplätze oder On-Board-Komponenten mit geringem Designaufwand vorsehen. Außerdem sind bis zu drei hochauflösende Monitoranschlüsse sowie eine interne Displayanbindung per LVDS oder eDP für die Visualisierung realisierbar. Für Security und das komprimierte Übertragen von Bilddaten (Encoding/Decoding) bringt bereits der Prozessor umfangreiche Möglichkeiten mit, sodass diese Themen effizient und zuverlässig »out of the box« funktionieren. Aufgrund des modularen Designansatzes lassen sich bereits existierende COM-Express-basierte Systeme auf neueste Prozessortechnologie upgraden.
Das Einstiegssegment für x86-Embedded-Computing hatte Intel in der Vergangenheit mit eigens dafür konzipierten Intel-Atom-Familien besetzt, die weitestgehend unabhängig von den Intel-Core-Familien entwickelt wurden. Jedoch hat sich dieser Ansatz geändert: Abgeleitet von der 12. Generation Intel-Core-Mobile-Prozessoren (»Alder Lake-P«) hat Intel mit der sogenannten »Alder-Lake-N«-Prozessorfamilie eine kostengünstige und sparsame Einstiegsplattform im CPU-Leistungsbereich von 6 W bis 15 W geschaffen. Im Gegensatz zu den Intel-Core-Mobile-Prozessoren verzichtet der Hersteller dabei auf die P-Cores. Die besonders energieeffizienten E-Cores, die integrierte Grafikarchitektur sowie viele weitere Features wurden jedoch vom »großen Bruder« übernommen, womit Intel eine hervorragende Softwarekompatibilität gewährleistet und ebenfalls Low-Power-Anwendungen von der neuen CPU-Architektur profitieren können. Passend für das Einstiegssegment und den daraus abgeleiteten Einsatzbereichen wurden unterschiedliche Prozessorvarianten definiert, die mit bis zu acht E-Cores und 32 Grafik-Execution-Units ausgestattet sind (Tabelle 2). Auch hier profitieren Embedded-Applikationen von den Technologietrends der Laptop-Einstiegsklasse: Trotz des günstigeren Preissegments werden beispielsweise hohe Ansprüche an Video-Conferencing (inkl. virtuellem Hintergrund) und Medienwiedergabe gestellt.
Auf Basis der gemeinsamen Technologieplattform mit den Intel-Core-Mobile-Prozessoren stehen im Low-Power-Segment erstmals Funktionen wie AVX2 und die neuen VNNI-Befehlssätze zur Verfügung, um beispielsweise KI-Inferenz-Aufgaben und Media-Encoding/-Decoding mit bis zu 4K-Auflösung maßgeblich zu beschleunigen. Damit Entwickler von Embedded-Systemen bestmöglich von der sehr kompakten Plattform profitieren, bietet TQ diese Prozessorfamilie auf dem lediglich Kreditkarten-großen, SMARC-2.1-kompatiblen Computer-on-Module »TQMxE41S« an (Bild 2).
Für eine optimale Gesamt-Performance stattet TQ die Embedded- Module mit bis zu 16 GB LPDDR5-Speicher aus und stellt mit zwei 2.5-Gigabit-Ethernet-Schnittstellen, PCIe Gen3 und USB 3.2 die schnelle Anbindung zur Außenwelt sicher. Da bei TQ sowohl auf den oben aufgeführten Embedded-Modulen der Intel- Core-Mobile-Klasse wie auch auf diesem Modul die gleichen Intel i226 Ethernet-Controller zum Einsatz kommen, ist auch hier durchgängiger Softwaresupport sowie das Realisieren echtzeitfähiger Vernetzung sichergestellt. Für den schnellen Einstieg in das modulare Design mit Intel »Alder Lake-N« bietet TQ sehr kompakte Applikationen zur Evaluierung an (Bild 3).
Durchgängiger Softwaresupport bringt ebenfalls im KI-Bereich Vorteile. Ziel ist es, Zusatzaufwand zum Implementieren und Pflegen unterschiedlicher Softwarestände für unterschiedliche Hardwarekonzepte zu vermeiden. Mit Unterstützen der Intel-Distribution von »OpenVINO« sowie »OneAPI« gewährleistet der Hersteller, dass beispielsweise KI-Applikationen unabhängig von der eingesetzten Intel-Hardware und den spezifischen Ausstattungsmerkmalen stets optimale Ergebnisse erzielen. Hiermit ist es möglich, die Hardware flexibel an die Leistungsbedürfnisse anzupassen und so unterschiedliche Geräteklassen, vom günstigen Einstiegsmodell mit »Basis-Ausstattung« bis hin zur Premium-Variante mit einem durchgängigen Softwarekonzept, umzusetzen. Steigen die Anforderungen, so steckt man nicht in einer Sackgasse, sondern kann bedarfsgerecht die Hardwareausstattung nach oben skalieren. Mit den unterschiedlichen Ausstattungsmerkmalen der auf den TQ-Modulen angebotenen Prozessoren lassen sich so sehr leistungseffizient moderne Applikationen mit KI realisieren: Passend zum Anwendungsfall lässt sich dabei das Zusammenspiel aus P-Cores, E-Cores und der integrierten Grafik ausbalancieren.
Bereits die Intel-»Alder-Lake-N«-Familie mit »Atom-x7000E«-Derivaten, dem »Core i3-N305« sowie den weiteren CPU-Varianten der sogenannten »Processor-N«-Serie bietet viele Mutli-Core-Optionen an. Es stehen Varianten mit zwei, vier oder acht E-Cores zur Auswahl. Sie unterscheiden sich jedoch nicht nur in der Anzahl an CPU-Kernen, sie bieten zudem wesentliche Unterschiede in den Taktfrequenzen und der integrierten Grafikleistung. Die Spezifikationen der insgesamt sieben CPU-Varianten sind im ersten Moment nicht besonders übersichtlich, decken aber bei genauerem Blick genau die Schwerpunkte ab, die in der Praxis vorkommen. Anwendungen, die Multi-Core fähig sind und von Parallelisierung profitieren, setzen beispielsweise eher auf eine höhere Anzahl an Kernen bei niedrigerer Taktfrequenz. Bei Single-Thread-Anwendungen punkten vor allem die CPU-Derivate, die pro Kern höhere Taktfrequenzen aufweisen. Für Systeme, die mit Hypervisoren oder Docker-Container arbeiten, sind vor allem die Quad-Core- und Octal-Core- Varianten prädestiniert, die es von 6 W bis 15 W TDP gibt.
Mit den Intel-Core-Mobile-Prozessoren ergeben sich noch mehr Möglichkeiten bei Multi-Core-Applikationen. PC-typische Systeme, auf denen mehrere Applikationen gleichzeitig laufen und das gegebenenfalls in unterschiedlicher Kombination, können beispielsweise unter Windows 10 und Windows 11 vom sogenannten Intel Thread-Director profitieren, den Intel sowohl hardware- als auch softwareseitig vorsieht. Er verteilt die verschiedenen Prozesse vollautomatisch auf die unterschiedlichen Cores. Applikationen, die Performance-hungrig sind, werden auf den P-Cores ausgeführt. Hintergrundprozesse und Applikationen, die von Parallelisierung profitieren, werden den energieeffizienten E-Cores zugewiesen, um keine P-Cores zu blockieren (Bild 4).
Ein genauer Blick in die Architektur zeigt, dass beispielsweise der Einsatz von vier E-Cores als Bundle zusammen mit einem gemeinsamen L2-Cache berücksichtigt wurde und sich hiermit gerade bei Multi-Thread-Applikationen in bestimmten Fällen bessere Performance-Werte als auf einzelnen P-Cores erzielen lassen (Bild 5).
Die große Anzahl an Cores sowie die Unterstützung von Grafikvirtualisierung, die die neue Intel-Prozessortechnik in Hardware und Software implementiert, bietet sehr gute Voraussetzungen für sogenannte Workload Consolidation. Mehrere Betriebssysteme wie Windows, Linux oder Android können parallel auf einem System laufen und getrennt voneinander bestimmte Aufgaben wie Visualisierung, Prozesssteuerung sowie beispielsweise eine besonders geschützte Netzwerk- und Cloud-Anbindung abdecken. Zum Beispiel lassen sich auf einem Ubuntu-Basissystem mit Hypervisor-Erweiterung die verschiedenen Gastbetriebssysteme aufsetzen.
Mit bereitgestelltem Softwaresupport von Intel können alle Gastsysteme einen oder mehrere Bildschirme gemeinsam zur grafischen Ausgabe nutzen. Das Zuordnen der verschiedenen CPU-Kerne für die unterschiedlichen Betriebssysteme erfolgt über den Hypervisor. Gerade für Echtzeitanwendungen, die beispielsweise in einem Gastsystem zur Prozessorsteuerung laufen, werden dabei bewusst nur gleichartige CPU-Kerne zugeordnet. So können bei jedem Gastsystem passend zur Aufgabe entweder P-Cores oder E-Cores zum Einsatz kommen.
Mit dem Verwenden der vorgestellten Embedded-Module von TQ ist es möglich, mit durchgängiger Softwarekompatibilität von den neuesten Errungenschaften der x86-Prozessortechnik – von der Einstiegs- applikation bis zur Premiumausführung – im Embedded-Bereich zu pro- fitieren und damit wettbewerbsfähige Produkte für morgen umzusetzen.
Der Autor
Harald Maier ist Produktmanager x86 TQ-Embedded bei der TQ-Group.