Computer-on-Module mit neuartiger »Accelerated Processing Unit«

Potenter Rechenzwerg

26. September 2012, 8:31 Uhr | von Martin Danzer

Das Auge des Arztes ist sein wichtigstes Diagnosewerkzeug, daher ist die bestmögliche Visualisierung aller Informationen in der Medizintechnik besonders wichtig. Embedded Systeme für diesen Einsatzzweck müssen also bei der Bilderstellung und -darstellung besonders leistungsfähig sein. Moderne Embedded-Prozessoren verfügen über spezielle Beschleunigungs-Recheneinheiten speziell für Grafikfunktionen, und leistungsfähige »Computer on Module«-Einheiten erleichtern deren Einsatz enorm.

Diesen Artikel anhören

Ständig steigt die Informationsdichte in der modernen Medizin: Kein Medizingerät kommt heute mehr ohne hochwertiges Display und grafische Benutzerschnittstelle aus; in Operationssälen, Arzt-, Schwestern- und Krankenzimmern existieren mehrere Computermonitore für die Darstellung der wichtigen Daten. Getrieben von den Entwicklungen bei der Konsumelektronik sind am medizinischen Arbeitsplatz zudem intuitive Bedienkonzepte mit hoher Bediensicherheit über (Multi-)Touchscreens gefragt. Und angesichts der immer detaillierteren medizinischen Bildgebung wachsen auch die Bildschirmdiagonalen, um die Datenmenge bestmöglich darzustellen und damit die Behandlung zu verbessern.

Von der integrierten Computertechnik verlangen diese Trends allerdings immer mehr Leistung sowohl für die Bilddarstellung als auch für die Datenaufbereitung und Bilderstellung. So erfordern Patientenmonitore und Patientendaten-Managementsysteme (PDMS) mit Touchscreen eine absolut verzögerungs- und ruckelfreie Grafik für eine sichere und intuitive Bedienung.

Für optisch ansprechende Bedienoberflächen und die reaktionsschnelle Visualisierung gerenderter 3D-Ultraschall- und -Röntgendaten ist zudem hohe 3D-Leistung gefragt. Um Systeme einzusparen, sollen die Bildinhalte zumeist auf mehrere Monitore verteilt werden können. Auch eine hohe Videoleistung ist ein wichtiges Kriterium zum Beispiel bei der Wiedergabe von 4D-Ultraschall-Video oder Streams von Endoskopie-Kameras, die mittlerweile Daten in Full-HD liefern.

Gefordert ist allerdings nicht nur die leistungsstarke Darstellung, sondern auch eine extrem schnelle Erstellung und Aufbereitung der Bilder, beispielsweise in Ultraschall-, Röntgen- und Analysegeräten. Aus Sensordaten müssen idealerweise in Echtzeit darstellbare Bilddaten entstehen - und das bei möglichst geringem Strombedarf. Dafür ist eine möglichst hohe parallele Rechenleistung nötig.

Bisherige Lösungen mit DSPs oder FPGAs sind zwar relativ leistungsstark, dafür aber proprietär und extrem aufwändig in der Neuentwicklung. Ideal wäre es also, viel multifunktionale Rechenleistung, viel parallele Rechenleistung für die Datenverarbeitung und Bilderstellung in Echtzeit sowie hohe Grafikleistung für die Visualisierung in einem kompakten und energieeffizienten System integrieren zu können. Und dies alles möglichst plattform- und hardwareunabhängig für eine gute Wiederverwendbarkeit.

Anbieter zum Thema

zu Matchmaker+
Bild 1: Auf dem Computer-on-Module »conga-TFS COM« sitzt eine »Accelerated Processing Unit« (APU) der »Embedded R«-Serie von AMD
Bild 1: Auf dem Computer-on-Module »conga-TFS COM« sitzt eine »Accelerated Processing Unit« (APU) der »Embedded R«-Serie von AMD
© Congatec

Genau das bietet eine heterogene Systemarchitektur mit »COM«-Modulen (Computer on Modules) auf Basis der neuen »Accelerated Processing Units« (APU) der »Embedded R-Series« von AMD (Bild 1). Sie integrieren eine effiziente Multicore-x86-CPU für klassische PC-Aufgaben und skalare Arbeitslasten mit einer programmierbaren vektoriellen Recheneinheit für parallele Rechenaufgaben und eine leistungsstarke Computergrafik auf einem Silizium-Die.

Diese APUs sind aufgrund der hohen Integration besonders kompakt und durch die spezialisierten Recheneinheiten besonders energieeffizient. Dabei ist der integrierte Grafikprozessor (GPU) auch für parallele Tasks zuständig, denn GPUs haben sich - getrieben vor allem durch die Entwicklung im PC-Spielemarkt - im Laufe der Jahre zu frei programmierbaren Spezialisten für parallele Rechenlasten entwickelt.

Moderne Modelle bestehen mittlerweile aus mehreren Hundert Recheneinheiten, die komplexe Berechnungen parallel ausführen können - und dies nicht nur für synthetisch generierte Computerspiele sondern auch für reale Daten, die verschiedenste Sensoren zuliefern können.

Effizient Rechnen mit OpenCL

In seinen APUs integriert AMD enorme Grafik- und parallele Rechenleistung mit Multicore-Technik in einer energieeffizienten und platzsparenden Lösung (siehe Kasten).

Die »Embedded R-Series«-APU von AMD im Detail   
Mit ihrer innovativen Architektur integriert die »R-Series«-APU von AMD alle wichtigen Systemelemente inklusive x86er-Cores, »GPU Vektor (SIMD) Engines« und »Unified Video Decoder« in einer platzsparenden Zwei-Chip-Lösung
  Multifunktionale PC-Performance
Eine Kombination gemeinsamer und dedizierter Ressourcen zeichnet die neue x86er-Architektur der APU aus. Zwei x86er-Cores greifen auf bis zu 2 MByte gemeinsamen 2nd-Level-Cache zu. Jeder Core weist eine Integer-Einheit inklusive 128-Bit-Floating-Point-Unit (FPU) auf. Bei Bedarf lassen sich beide FPUs zu einer 256-Bit-FPU zusammenfassen, was die Gleitkomma-Rechenleistung deutlich erhöht. Dedizierte Recheneinheiten sorgen für zusätzliche Energieeffizienz:  Der überarbeitete »Unified Video Decoder« reduziert die Leistungsaufnahme bei der Videowiedergabe, denn er kann in der R-Series-APU jetzt zwei unabhängige 1080p-Videostreams zeitgleich verarbeiten und unterstützt die Blu-ray-3D-Ausgabe. Gänzlich neu ist die »Video Compression Engine« (VCE), die HD-Videos in Echtzeit und bei minimaler CPU-Last in das H.264-Format konvertiert - sinnvoll beispielsweise für Endoskopie-Systeme oder Video-Applikationen.
Hohe Grafikleistung
Zudem unterstützt die neue Serie bis zu vier unabhängige Displays oder ein extrem hochauflösendes Display mit bis zu 4096 x 2160 Bildpunkten. Dies ist für eine neue Generation besonders hochauflösender Bildschirme relevant, beispielsweise an Befundungs-Workstations, die auch noch aus nächster Nähe extrem scharfe Bilder liefern.
Schnelle parallele Berechnung
Sehr leistungsstark ist auch die intergrierte AMD-Radeon-Grafikeinheit der 7000er-Familie: Sie bietet zwischen 128 und 384 Grafik-Cores mit einer Taktrate von bis zu 686 MHz. Damit liegt die »R-464L«-APU mit einem »3Dmark Vantage E«-Ergebnis von 13066 laut Hersteller weit oberhalb der Leistungsklasse, in der sich bisher integrierte Grafikeinheiten auf dem Markt finden ließen. Für parallele Rechenlasten bringt es diese APU damit auf einen Spitzenwert von 576 GFLOPS mit einfacher Genauigkeit.  Computer-on-Modules mit diesen APUs eignen sich also sehr gut als Plattform für anspruchsvolle Applikationen in der medizinischen Bildverarbeitung.

So ist die »Embedded R-Series«-APU in acht unterschiedlichen Varianten mit Dual- und Quadcore-Prozessoren und unterschiedlich leistungsstarken AMD-Radeon-Grafikeinheiten der »7000er«-Familie von 17 W TDP bis hin zu 35 W TDP (Thermal Design Power) für das Spitzenmodell »R-464L« erhältlich. Damit Entwickler die parallele Rechenleistung der neuen APUs effizient nutzen können, unterstützt der Computer-on-Module »conga-TFS« von Congatec neueste, plattformübergreifende APIs wie »OpenCL«, eine mächtige Programmierumgebung, mit deren Hilfe sich Rechenaufgaben hardwareübergreifend innerhalb heterogener Prozessorsystemen verteilen und verarbeiten lassen.

Das Besondere an OpenCL ist dabei, dass eine mehrfache parallele Ausführung in jedem einzelnen Schritt (SIMD, Single Instruction/Multiple Data) möglich ist, also klassische Parallelrechnerarchitektur mit unterstützt wird. Dies ist wichtig, da sich nicht nur grafische Darstellungen sondern auch viele analytische Probleme sehr gut zur Parallelisierung eignen. So können viele hochkomplexe und hochgenaue Berechnungen mit parallelen Rechenwerken in nur wenigen CPU-Takten erledigt werden, für die eine klassische, serielle CPU bis zu mehrere tausend Schritte benötigen würde.

Klar, dass dies die Rechenzeit und damit den Energieverbrauch für komplexe Rechenaufgaben drastisch senkt. Gerade die bildgebende Medizintechnik mit ihrer ausgeprägten, vielfach gut parallelisierbaren Analytik kann von dieser Effizienzsteigerung enorm profitieren. So arbeitet ein Algorithmus auf OpenCL-Basis für die Bildregistrierung, bei dem es um die Stabilisierung eines Videobildes geht, auf der GPU 120- bis 130-mal schneller als eine klassische Berechnung auf der x86er-CPU.

Mit einem so genannten »Computer-on-Module« (COM) können Entwickler und OEMs diese neuen Möglichkeiten besonders effizient in ihre Medizingeräte eindesignen. COMs integrieren die zentralen Computer-Funktionen des Systems auf einer austauschbaren Platine und sind als fertig integrierte Zukaufkomponente erhältlich. Die externen Anschlüsse und Peripheriekomponenten werden über die applikationsspezifische Trägerplatine ausgeführt, die verhältnismäßig einfach zu entwickeln ist.

Insbesondere für die Entwicklung von Medizingeräten, die zahlreiche Spezifikationen erfüllen müssen, ist diese Trennung von Trägerboard und Recheneinheit von großem Vorteil. So verlangt die Norm EN 60601-1 zum Beispiel einen extrem geringen Ableitstrom über externe I/Os. Dieses spezifische I/O-Know-how lässt sich bequem über das Design des Trägerboards erfüllen, ohne dass spezielle Anpassungen an der komplexen Recheneinheit, dem COM, nötig werden.

Weil sich zudem die Leistung des Systems mit der Auswahl des geeigneten COMs frei skalieren lässt, können OEMs ganze Produktreihen effizient entwickeln - vom tragbaren, batteriebetriebenen Ultraschallgerät für den Feldeinsatz bis zum extrem leistungsstarken 4D-Ultraschallsystem im Arztzimmer. Ganz neu ist dabei die Möglichkeit, mit dem conga-TFS auch die Grafikleistung zu skalieren: Über ein zusätzliches AMD-Embedded-Grafikmodul lässt sich die vorhandene Leistung der R-Series-APU um die zusätzliche Grafik- beziehungsweise Rechenleistung der dedizierten GPU Radeon-E6760 von AMD erweitern - laut Hersteller Congatec im Embedded-Computing-Bereich bisher einzigartig.

Zudem sind die Systeme auch noch Jahre später über einen einfachen Austausch des Moduls auf eine höhere Rechenleistung aufrüstbar, ohne das komplette System neu entwickeln zu müssen. Insbesondere hochwertige Medical-Systeme mit ihren spezifischen I/Os und Gehäusen können so zu einem Bruchteil der Neukosten über mehrere Prozessorgenerationen hinweg auf dem aktuellen Stand der Technik gehalten werden.

Damit lässt sich der Produktlebenszyklus bei minimaler »Total Cost of Ownership« deutlich verlängern. Bei der Auswahl des COM-Lieferanten sollte die Qualität von Produkt und Support oberste Priorität haben. Hierzu sind langjährige Erfahrung und Fachkompetenz ebenso erforderlich wie die nötige Innovationsfähigkeit. Insbesondere letztere ist laut Congatec bei hoch spezialisierten Mittelständlern oft deutlicher ausgeprägt als bei großen Unternehmen, die in allen nur denkbaren Gebieten aktiv sind.

Congatec hat sich frühzeitig auf innovative Module und deren Weiterentwicklung spezialisiert und in dem maßgeblichen Arbeitskreis der PICMG für den Standard COM-Express entscheidend mitgewirkt. So kann der Hersteller nicht nur ausgereifte Entwicklungssysteme sondern auch die passende Software- und Integrationsexpertise sowie einen guten Support über den gesamten Lebenszyklus der Produkte bieten. Dies gilt insbesondere auch für die APU-Technologie von AMD und den neuen Standard OpenCL.

Der Entwickler kann sich also auf seine eigentliche Kernkompetenz, nämlich die jeweilige Anwendung und die dazu notwendige Peripherie konzentrieren. Ein weiterer Vorteil des Modulkonzeptes: Der Systemhersteller kann bei seiner bewährten Fertigungstechnik bleiben und muss seine Maschinen nicht ständig kostenaufwändig auf die neuesten Technologien umstellen. Kein Wunder, dass sich COMs in den letzten Jahren bei Embedded-Projekten kleiner und mittlerer Stückzahlen (bis einigen 10 000 pro Jahr) immer mehr durchgesetzt haben.

Über den Autor:

Martin Danzer ist Product Manager bei Congatec.

»conga-TFS«, das COM-Express-Modul mit AMD-R-Serie-APU   
Derzeit unterstützt das COM-Express-Modul »conga-TFS « von Congatec drei Varianten der »Embedded R-Series«-APUs von AMD, angefangen vom Dual-Core-»R-272F« bis zum  Quad-Core-»R-464L«. Auf dem Modul kommt der Controller-Hub »A70M« von AMD zum Einsatz, damit bietet es eine leistungsfähige, kompakte Zwei-Chip-Lösung mit Unterstützung für bis zu 16 GByte Dual-Channel-DDR3-Speicher bis 1600 MHz. Der integrierte Grafikkern unterstützt DirectX 11 und OpenGL 4.2 für schnelle 2D- und 3D-Bilddarstellung. Ein Hardware-Universal-Video-Decoder der dritten Generation sorgt für die nahtlose Verarbeitung von Videostreams der Formate H.264, VC-1, MPEG4 Part 2 und MPEG2. An Grafikschnittstellen stehen unter anderem VGA und 18/24-Bit-Single/Dual-Channel-LVDS zur Verfügung; hinzu kommen drei DisplayPort-1.2-, eine HDMI-1.4- sowie zwei Single-Link-DVI-Interfaces zur direkten Ansteuerung von drei unabhängigen Displays. Sieben PCI-Express-2.0-x1-Lanes, ein PCI-Express-2.0-x8-Link sowie vier SuperSpeed-USB-3.0-, vier USB-2.0- und vier SATA-6-GBit/s-Ports wie auch eine Gigabit-Ethernet-Schnittstelle und High-Definition-Audio runden das umfangreiche Funktionsangebot ab.

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu congatec AG

Weitere Artikel zu Medizinelektronik