Computermodule mit AMDs neuen Embedded-SoCs der R-Serie Leistungsschub ohne Wärmeproblem

Die leistungsfähigen Desktop-Prozessoren sind nun auch für Embedded-Applikationen verfügbar.
Die leistungsfähigen Desktop-Prozessoren sind nun auch für Embedded-Applikationen verfügbar.

Mit dem Launch der ersten SoC-Variante der AMD-Embedded-R-Series-Prozessoren sind diese leistungsfähigen Desktop-Prozessoren nun auch für Embedded-Applikationen verfügbar. Dank der skalierbaren Verlustleistung ab 12 Watt können sie erstmals sogar in komplett geschlossenen, lüfterlosen Systemen zum Einsatz kommen.

Die bislang verfügbaren Prozessoren der AMD Embedded R-Series, die als APU (Accelerated Processing Unit) die CPU und GPU auf einem Die vereinen, haben eine konfigurierbare TDP (Thermal Design Power) von 30 bis 35 Watt, einzelne Dual-Core-Varianten (z.B. RX-225FB und RX-219NB) 15 bis 17 Watt. Die jetzt freigegebenen AMD-Embedded-R-Series-Prozessoren sind SoCs. Sie integrieren neben der CPU und GPU nun auch den Platform Controller Hub (ehemals Southbridge) und sind dadurch deutlich platzsparender und vor allem auch energieeffizienter. So benötigen die neuen CPU-Kerne bei rund 5 Prozent gestiegener Performance rund 40 Prozent weniger Energie. Gleichzeitig ist die konfigurierbare TDP von 12 bis 35 Watt besonders weit skalierbar. Bei Auslegung mit rund 12 bis 15 Watt können sie erstmals in vollständig lüfterlosen Designs eingesetzt werden.

Damit erschließt sich die AMD Embedded R-Series neben dem High-Performance Embedded Computing auch neue Anwendungsfelder, die hohe Anforderungen an die Robustheit oder den Schutzgrad der Systeme stellen. So sind komplett geschlossene Systeme ein Muss im klinischen Bereich, wenn es besonders hygienisch sein soll. Im industriellen Umfeld ist der Schutz vor Staub und Schmutz wichtig. Auch die Wartungsfreiheit ist ein wesentlicher Aspekt, der für lüfterlose Systeme spricht. Es gibt also vielfältige Anwendungsbereiche, die nun erstmals vor der Wahl stehen, auf AMD-Embedded-R-Series-Prozessoren zu setzen.

In vielen Fällen sind dabei die Argumente für die AMD Embedded R-Series die gleichen wie die im höher performanten Bereich, der immer auch einen Lüfter braucht: Es sind vor allem die High-End-Embedded-Applikationen, die entweder von der integrierten AMD-Radeon-Grafik profitieren, oder aber Applikationen, die die Unterstützung von OpenCL und der Heterogeneous-System-Architektur als Wettbewerbsvorteil nutzen.

Angewendet werden die neuen Prozessoren deshalb in Applikationen, die eine besonders leistungsfähige Grafik und/oder parallele Rechenleistung erfordern. Diese finden sich unter anderem im High-End Gaming wie digitalen Flipper- und Arcade-Automaten, in anspruchsvollen Digital-Signage-Installationen mit großformatigen 4K-Panels sowie der Bild- und Videoanalytik in industriellen Bildverarbeitungssystemen sowie bildgebenden Verfahren der Medizintechnik.

Auch Sicherheitsapplikationen wie die Videoüberwachung mit Gesichtserkennung oder Netzwerk-Firewalls mit Deep Packet Inspection sowie IoT-Systeme mit integrierter Big-Data-Analytik profitieren von der hohen GPGPU-Performance der neuen Embedded-R-Series-Prozessoren. Welche Verbesserungen wurden aber gegenüber der bisherigen APU erzielt?

Echtes System-on-Chip im Hochleistungssegment

Während der Wettbewerb die Prozessoren noch als Multi-Chip-Module auslegt, ist die AMD Embedded R-Series das erste SoC-Design im x86-High-Performance-Segment, bei dem GPU, CPU und I/O Controller auf einem einzigen Die integriert sind. Diese gesteigerte Integration hat AMD dazu genutzt, die Energieeffizienz zu optimieren und den Leistungsbedarf zu verringern. Die CPU basiert auf der neuen „Excavator“-Architektur. Wie auch bei den R-Series APUs teilen sich zwei x86-Cores einen gemeinsamen L2-Cache. Bei der neuen Architektur wurde der Platzbedarf einzelner Funktionseinheiten optimiert. So konnten z.B. der Floating Point Scheduler, die Fused-Multiply-Accumulate-Einheiten (FMAC) und der Befehls-Cache verkleinert werden, was zu einem geringeren Energiebedarf führt.

Auch das Power Management, das bereits schon vorher CPU und GPU verwaltete, hat AMD noch weiter verfeinert. Pro Excavator-Kern kommen zehn sog. Adaptive Voltage Frequency Scaling Modules (AVFS) zum Einsatz. Sie optimieren die Spannung und Taktfrequenz der einzelnen Funktionseinheiten, damit jeder Core das vorhandene Power und Thermal Budget noch feiner ausnutzen kann. Bei all diesen Maßnahmen ist die maximale TDP des SoC gegenüber den vorherigen APUs gleich geblieben – trotz der Integration der Southbridge, deren Verbrauch als Fusion Controller Hub A75 mit nicht unwesentlichen 7,8 Watt ins Gewicht fiel (das sind 22 % der maximalen 35 Watt TDP). Gleichzeitig hat AMD die Performance erhöht. In der Summe bietet die Excavator-Architektur 5 % mehr Befehle pro Taktzyklus bei 40 % geringerer Leistungsaufnahme und 23 % weniger Fläche auf dem Die gegenüber dem Vorgänger Steamroller und damit auch signifikant mehr Rechenleistung pro Watt. Rechnet man diese Werte auf eine Steigerung bei gegebener elektrischer Leistung um, kommt man auf bis zu theoretische 175 % (100/60 × 1,05 = 1,75) – eine enorme Verbesserung der Rechengeschwindigkeit bei gegebener Leistung. Designs mit der ersten Generation APUs könnten bei unveränderten Performance-Ansprüchen sogar auf lüfterlose 15 Watt umsteigen.

Auch Sicherheitsapplikationen wie die Videoüberwachung mit Gesichtserkennung oder Netzwerk-Firewalls mit Deep Packet Inspection sowie IoT-Systeme mit integrierter Big-Data-Analytik profitieren von der hohen GPGPU-Performance der neuen Embedded-R-Series-Prozessoren. Welche Verbesserungen wurden aber gegenüber der bisherigen APU erzielt?

Rechnen mit dem Grafikprozessor

Neben der CPU ist auch die GPU neu. Der integrierte Grafikprozessor AMD Radeon HD 10.000 basiert nun auf der dritten Generation der Architektur „Graphics Core Next“ (GCN 1.3). Die Radeon HD 10.000 bietet bis zu acht Compute Units mit jeweils 64 Execution Units. Dies summiert sich auf 512 Ausführungseinheiten. Sie bieten Applikationsentwicklern nochmals gesteigerte Grafikleistung mit neuesten 3D-Features von DirectX12 und OpenGL 4.4. Damit eignen sich die neuen SoCs für Applikationen, die eine Grafikleistung auf Spielkonsolen-Niveau mit bis zu drei Bildschirmen erfordern.

Gleichzeitig können Entwickler den AMD Radeon HD 10.000 auch für GPGPU-Aufgaben nutzen. Und das geht dank voller Unterstützung der jüngst verabschiedeten Spezifikation 1.0 für heterogene Systemarchitekturen (HSA) nun noch einfacher. HSA vereinheitlicht für Programmierer die Ansprache der relevanten Recheneinheiten. Dazu baut HSA die Programmierbarrieren zwischen CPU und GPU ab und minimiert über eine einheitliche Speicherschnittstelle die Latenzen bei der Kommunikation zwischen CPU und GPU. Programmierer können mit HSA ihre Applikationen so entwickeln, dass sie die jeweiligen Vorteile von CPUs und GPUs optimal ausnutzen. Die einzelnen Workloads werden mit HSA automatisch auf der jeweils optimalen Recheneinheit abgearbeitet, was zu bestmöglicher Rechenleistung bei minimiertem Energieverbrauch führt. Der einheitliche Speicher für CPU und GPU von HSA beschleunigt dabei die Kommunikation zwischen diesen beiden Recheneinheiten. Damit hat der Arbeitsspeicher auch eine hohe Bedeutung für die Gesamtrechenleistung. Hier unterstützt die neue AMD Embedded R-Series den bandbreitenstarken DDR4 RAM mit ECC, sodass auch die Anforderungen von datenkritischen Server- und Big-Data-Applikationen erfüllt werden. DDR4 RAM ist zudem rund 20 % energieeffizienter als der bisherige DDR3 RAM, was sich zusätzlich positiv auf die Performance und Leistungsaufnahme des Gesamtsystems auswirkt.