COM-Express-Modul von TQ-Systems Für performante Messtechnik-Anwendungen

Flaschenhälse vermeiden

Hersteller von anspruchsvollen Messetechnik-Anwendungen greifen auf einen großen Erfahrungsschatz im Bereich Messwerterfassung zurück. Dort liegt für viele das Kern-Know-how. Aber auch die optimierte Weiterverarbeitung der Messwerte sowie die Datenaufbereitung sind wichtige Aspekte für erfolgreiche Produkte und eine hohe Kundenzufriedenheit.

Damit hier kein Flaschenhals entsteht, gibt es einige Punkte zu beachten: Zunächst gilt es, die internen Datenkommunikationswege bezüglich Durchsatz und Latenzzeit zu bewerten. Gerade bei Systemen, die große Datenmengen und leistungsfähige Analysefunktionen im Mittelpunkt bewältigen müssen, sollte die Datenverarbeitung innerhalb der PC-Einheit genauer beleuchtet werden. Auch wenn es um Datenspeicherung geht, gibt es einige Punkte zu beachten, um das Gesamtsystem nicht auszubremsen.

Meist werden die Messwerte als Rohdaten in einem leistungsfähigen FPGA zu-sammengeführt und vorverarbeitet. Der weitere Kommunikationsweg zur PC-Einheit führt in modernen Systemen über PCIe, womit die Daten seriell übertragen werden. Je nach Datenmenge sind dabei entsprechende Leistungsparameter zu berücksichtigen. Die Bandbreite wird unter anderem von der unterstützten Taktrate bestimmt.

Bei Systemen mit der ersten PCIe-Generation waren theoretisch bis zu 250 MB/s pro Übertragungs-Lane möglich. Moderne leistungsfähige Prozessoren wie der Kaby Lake-H unterstützen bereits die dritte PCIe-Generation mit Übertragungsraten von knapp 1 GB/s pro Lane. Um die Bandbreite zu erhöhen, lassen sich bei PCIe einzelne Lanes bündeln. Für große Datenmengen werden deshalb typischerweise PCIe x4 (vier Lanes) oder PCIe x16 (16 Lanes) genutzt. Bei den Kaby-Lake-H-Prozessoren von Intel kann PCIe x16 in der Generation 3 genutzt werden, wodurch sich Daten mit knapp 16 GB/s - abzüglich etwas Protokoll-Overhead - zwischen FPGA und Prozessor übertragen lassen.

Aber nicht nur die theoretischen Werte der PCIe-Übertragungsstrecke sind wichtig, sondern auch, wie der PCIe Controller systemintern angebunden ist. Um optimale Performancewerte zu gewährleisten, ist die PCIe-x16-Schnittstelle (hier PEG-Port genannt) beim Kaby Lake-H direkt in die CPU integriert. Weitere PCIe-Schnittstellen werden über den PCH (Peripheral Controller Hub, umgangssprachlich oft als Chipsatz bezeichnet), zur Verfügung gestellt. Diese teilen sich jedoch die Bandbreite von maximal 4 GB/s von PCH zu Prozessor mit anderen Schnittstellen wie beispielsweise SATA, USB und Ethernet. Mit dem Carrierboard MB-COME6-2 von TQ lassen sich unterschiedliche High-Speed-Schnittstellen und Speichermedien für COM-Express-Basic-Module evaluieren (Bild 3).

Cache und Arbeitsspeicher 

Datenmenge, CPU-Rechenleistung und Speicher müssen gut aufeinander abgestimmt sein. Was hilft es, wenn die CPU brach liegt, weil es im Datenverkehr Engpässe gibt? In PC-Systemen sind deshalb die eingesetzten Speichertechnologien und -größen ein wichtiger Optimierungsfaktor. Der in die CPU integrierte Cache-Speicher ist typischerweise für Programmcode und Daten gedacht. Die Kaby-Lake-H-Prozessoren punkten mit einem 8 MB großen Smart-Cache, auf den laut realen Benchmark-Messungen mit Übertragungsgeschwindigkeiten von bis zu 140 GB/s zugegriffen werden kann. Damit wird sichergestellt, dass möglichst viel Programmcode und Daten im Prozessor direkt zur Verfügung stehen und somit die CPU und der Zugriff auf den DDR4-Arbeitsspeicher durch Nachladen von Programmcode nicht unnötig blockiert werden.


Eine hohe CPU-Auslastung steht typischerweise auch mit einer hohen Auslastung des DDR4-Arbeitsspeichers in Zusammenhang. Intel hat deshalb auch die Speicherschnittstelle der Prozessoren optimiert: Mit dem neuen Kaby Lake-H werden bis zu 32 GB DDR4-2400 unterstützt, die mit 64-Bit- und Dual-Channel-Betrieb angebunden sind. Benchmark-Tools ermitteln hier reale Datenübertragungsraten von über 25 GB/s. COM-Express-Basic-Module wie das TQMx70EB von TQ stellen für die Konfiguration des Arbeitsspeichers zwei SO-DIMM-Sockel für DDR4 zur Verfügung, sodass je nach Anforderungen die entsprechende Speichergröße eingesetzt werden kann.

Abhängig vom ausgewählten Prozessorderivat können sogar SO-DIMMs mit Fehlerkorrektur (ECC, Error Correction) verwendet werden. Einzelne Bitfehler lassen sich erkennen und automatisch korrigieren. Dies ist vor allem dort sinnvoll, wo eine extrem hohe Ausfallsicherheit des Messsystems gefordert ist.

Mit der siebten Generation ihrer Core-Prozessoren bietet Intel auch auf der Embedded-Roadmap wieder eine recht große Bandbreite an unterschiedlichen Derivaten an. Als günstige Einstiegsklasse werden Core-i3-Varianten der 7000E-Familie mit zwei Rechenkernen (Dual Core) angeboten. Alle größeren Derivate sind als Quad-Core-CPUs ausgeführt. Die Core-i5-Bausteine stellen meist das beste Preis-Leistungs-Verhältnis zur Verfügung. Mit den Core-i7- und den Xeon-Varianten wird das High-End-Segment adressiert, wobei die Xeon-Prozessoren nicht nur höhere Leistungsfähigkeit aufweisen, sondern auch ECC-Speicher unterstützen.

Für Anwendungen, die zur Datenanalyse wie Algorithmen mit Vektorberechnung nutzen, können zusätzlich zu den CPU-Cores auch den extrem leistungsfähigen Grafik-Core nutzen. Mit OpenCL 2.1 werden entsprechende Befehlssätze unterstützt. Messwerte und -kurven lassen sich auf bis zu drei Displays grafisch darstellen, wobei eingebaute Displays typischerweise über LVDS angebunden werden. Wer besonders detaillierte Messkurven auf großen Monitoren ausgeben möchte, profitiert von den hochauflösenden Monitorausgängen, die 4K UHD und mehr unterstützen.

Mithilfe der insgesamt neun verschiedenen Prozessorderivate lässt sich die Rechenleistung entsprechend den Anforderungen anpassen. Durch einen modularen Aufbau auf Basis von COM Express ist sichergestellt, dass sich ein System auch bei wachsenden Ansprüchen upgraden lässt. Mit unterschiedlichen Standardvarianten des COM-Express-Moduls TQMx70EB bietet TQ die Möglichkeit, schon vorab die Applikation mit den unterschiedlichen Prozessoren zu evaluieren.