Globalpress Electronics Summit 2011 Xtensa LX4 – neues Leistungswunder

Leistungsvergleich Xtensa LX4 DPU
Dr. Chris Rowen, Founder und CTO von Tensilica, stellt mit Xtensa LX4 DPU einen neuen Prozessor für Datenpfad-Anwendungen zur Implementierung in SoCs vor, der laut Rowen einen Leistungssprung ermöglichen soll. Mit 45-nm-Geometrien soll der Core mit über 1 GHz getaktet werden können und eine Fläche von nur 0,044 mm2 belegen.

DPU statt CPU: Mit »Xtensa LX4 DPU« hat Tensilica einen neuen Prozessor für Datenpfad-Anwendungen zur Implementierung in SoCs vorgestellt, der für ein neues Niveau bei der Rechenleistung sorgen soll.

Mit dem neuen Core zielt das Unternehmen auf Anwendungen wie Bildverarbeitung, Kommunikation und Networking. Gefertigt in 45 nm soll der Core mit über 1 GHz getaktet werden können und eine Fläche von nur 0,044 mm2 belegen.

»Das Problem mit traditionellen Prozessoren besteht darin, dass ihre Rechenleistung mit weniger als 10 BOPS eher bescheiden ausfällt. Hinzu kommt noch, dass die Energieeffizienz mit weniger als 2 BOPS/W ebenfalls niedrig ist«, erklärt Rowen weiter. Neue Leistungsanforderungen, die 4G, LTE-A oder intelligente Videokonferenzlösungen mit Gesichtserkennung und Soundverbesserung mit sich bringen, würden vollkommen neue Niveaus an Rechenleistung erfordern, die weit über dem lägen, was mit jetzigen Prozessoren möglich ist.

»Xtensa LX4 erreicht eine höhere Rechenleistung bei gleichzeitig verringertem Energieverbrauch. Der neue Core ermöglicht eine flexiblere Auswahl bezüglich des Systemspeichers und die Entwicklungszeit haben wir ebenfalls verringert«, fasst Rowen die Vorteile des neuen Cores zusammen. Welche Maßnahmen wurden ergriffen, um diese Vorteile zu erreichen?

  • Der Durchsatz pro Zyklus wurde erhöht – der Xtensa LX4 führt mehr Operationen pro Zyklus durch. Dazu wurde die Befehlsbreite auf 128 Bit vergrößert, früher waren es 64 Bit. Damit passen mehrere 16 und 24-Bit-Befehle in einen Zyklus, wodurch die Tasks mit einer geringeren Anzahl von Zyklen abgearbeitet werden können. Außerdem können viel mehr Daten pro Zyklus hin- und her geschoben werden: Bis zu 512 Bit Load/Stores auf lokale Speicher und bis zu 1024 Bit insgesamt. Rowen: »Das ist deutlich mehr als mit heutigen 32- und 64-Bit-Prozessoren möglich ist.«
  • Eine effizientere Nutzung der Speicher und Schnittstellen – dazu hat Tensilica eine laut Rowens Aussage sehr effektive Prefetch-Engine entwickelt, mit der sich die Latenzzeiten verringern lassen, somit höhere Geschwindigkeiten möglich sind und der Leistungsverbrauch gesenkt wird. Darüber hinaus wurden die Konfigurationsmöglichkeiten verbessert, so dass dem Entwickler eine größere Kombinationsvielfalt von Caches/lokalem Speicher (bis zu 6 verschiedene Kombinationen) offen stehen. Außerdem ist es mit LX4 möglich, den Prozessor direkt mit schnellen Ports oder einem anderen Xtensa-Core zu verbinden, ohne über einen Bus zu müssen.
  • Einfachere Entwicklung von effizienter Software – Tensilica bietet mit dem neuen Core auch ein neues Tool, den so genannten Vectorization Assistant, der jede Schleife automatisch identifiziert und den Vektorisierungsstand ermittelt. Damit lässt sich ein deutlich besseres Verhältnis zwischen Code-Performance und Energie erreichen, Rowen hält einen Faktor von bis zu 10 für möglich. Darüber hinaus lässt sich mit diesem Tool auch die Entwicklungszeit verkürzen. Daneben stellt Tensilica auch eine verbessere C-Bibliothek zur Verfügung (xclib), dessen Nutzung eine Reduzierung der Code-Größe von bis zu 27 Prozent ermöglicht. Rowen: »Dabei handelt es sich um eine Tensilica-Bibliothek, so dass keinerlei Probleme mit Open Source Ansätzen zu befürchten sind.«

Die durchgeführten Leistungstests belegen, dass der LX4 selbst dem hauseigenen LX3 haushoch überlegen ist. Zum Beispiel liegt die Speicherbandbreite beim LX4 um den Faktor 4 höher als beim LX3. Der neue Core kann aber auch sechsmal so viele komplexe Add-Operationen pro Zyklus durchführen wie der LX3. Eine FIR wird achtmal so schnell abgearbeitet wie mit einem LX3 und und und. Rowen abschließend: »In der Summe ergibt sich eine Steigerung der Gesamtleistung um den Faktor 6.«

Die ersten Schlüsselkunden können mit dem Core seit Oktober 2010 arbeiten. Ab sofort steht er jetzt für alle Kunden zur Verfügung.