5G-Infrastrukturen Funkanwendungen auf einem FPGA-Chip

Xilinx erweitert seine Zynq UltraScale-plus-Familie um eine Variante mit integrierten A/D- und D/A-Wandlern, deren Abtastraten für HF-Frequenzen ausreichen. Bei Remote-Radio-Head-Designs für 5G-Infrastrukturen ist das Produkt konkurrenzlos, was Integrationsdichte und Leistungsaufnahme angeht.

Zielanwendungen für die neuen Chips sind Remote-Radio-Heads (RRHs), Basisband-Processing, Backhaul in der drahtlosen Infrastruktur sowie Docsis-Kabelinfrastrukturen in kabelgebundenem Breitbandnetz. Schon heute werden viele von Xilinxs Zync-SoCs in RRHs eingesetzt, mit den neuen RFSoCs könnten es die Kalifornier schaffen, bisherige diskrete Chips zu verdrängen und den eigenen Wertschöpfungsanteil zu erhöhen. Die heutzutage in einem 8×8-RRH benötigten diskreten A-D-Wandler kosten Tausende Euro. 

Bild 1 zeigt den prinzipiellen Aufbau einer drahtlosen Infrastruktur unter Einsatz von RRHs. Bei Funknetzen sind die Funkmodule normalerweise im Gestell der Funkbasisstation untergebracht. Von dort aus werden die HF-Signale über verlustarme Hochfrequenzkabel an die Antenne weitergeleitet. Im Gegensatz zu diesem Konzept wird bei RRH-Systemen ( Remote Radio Head) das Funkmodul an die Antenne verlagert und über eine verlustfreie digitale Übertragungstrecke mittels Glasfaserkabel (Fiber to the Antenna) mit der Basisstation verbunden.

Als Remote-Radio-Head wird also die außentaugliche, allwetterfeste Montage von Spannungsversorgung, Sende- und Empfangsbaugruppe (Transceiver), Endverstärker und Duplexfilter an den Antennenmast bezeichnet.

Bei direkter Montage am Antennenmast wird – wegen der kürzeren HF-Leitung (meist ein Hohlleiter) zur Antenne – eine niedrigere Sendeleistung benötigt, was den Wirkungsgrad erheblich erhöht. Außerdem kann der Sendemast mehrere Kilometer von der Basisstation (bei LTE: eNode B, bei UMTS: Node B, bei GSM: BTS) entfernt aufgestellt werden.

Um eine Vielzahl von Anwendungen optimal abzustimmen, bietet Xilinx fünf verschiedene RFSoCs an. Der voll ausgestattete für Backhaul-Anwendungen optimierte ZU28DR bietet acht 12-bit-A-D-Wandler mit 4 GSamples/s, acht 14-bit-D-A-Wandler mit 6,4 GSamples/s und acht SD-FEC-Blöcke (Bild 2). Letztere stehen für Soft-Decision-Vorwärtsfehlerkorrektur. Wenn in einem Übertragungssystem Vorwärtsfehlerkorrektur eingesetzt wird, kodiert der Sender die zu übertragenden Daten in redundanter Weise, sodass der Empfänger Übertragungsfehler ohne Rückfrage beim Sender erkennen und korrigieren kann.

Insbesondere Basisbandverarbeitungs-Applikationen und Docsis-3.1-Remote-PHY-Designs können die neuen SD-FEC-Blöcke einsetzen. Jeder Block verfügt über einen Low-Density-Paritätsprüfungs-Encoder und -Decoder, die für eine Vielzahl von Codes konfiguriert werden können, einschließlich derer, die von 5G-NR und Docsis 3.1 verwendet werden. Low-Density-Paritätsprüfungs-Codes, auch als LDPC oder Gallager-Codes bezeichnet, sind lineare Blockcodes zur Fehlerkorrektur. Sie wurden 1962 von Robert Gray Gallager im Rahmen seiner Dissertation am MIT entwickelt und beschreiben mit Hilfe einer Matrix viele zusammenhängende Paritätsprüfungen. Es wird dabei das Prinzip einer Kontrollmatrix angewandt: H × bT = 0, wobei H die Kontrollmatrix und b die Folge der empfangenen Codesymbole (repräsentiert als Zeilenvektor) darstellt. H ist nur dünn besetzt (daher die Bezeichnung low-density).

Insgesamt liefern die acht SD-FEC-Blöcke einen Durchsatz von 42 Gbit/s bei der Codierung und von 10 Gbit/s bei der Dekodierung. Sie haben auch einen Turbo-Decoder für die Abwärtskompatibilität mit LTE-Advanced und LTE-Pro. Xilinx sagt, dass eine Soft-IP-Implementierung ein großes FPGA pro SD-FEC-Block erfordert, während sein RFSoC acht gehärtete Blöcke hat. Das ZU27DR, das auf RRHs zielt, hat keine SD-FEC, dem ZU21DR für Basisband-Applikationen fehlen folgerichtig A-D- und D-A-Wandler.

arm Cortex-A und Cortex-R 

Alle RFSoCs beinhalten bis zu 930.000 Logikzellen, die 425.000 Lookup-Tabellen mit sechs Eingängen (LUTs) bereitstellen und 4272 DSP-Blöcke, die jeweils einen 27×18-Multiplizierer und einen 48-Bit-Akkumulator implementieren. Es gibt gehärtete Blöcke für 100G Ethernet (mit RS-FEC) und PCI Express 4.0 (Root Complex oder Endpunkt). Diese Blöcke sind mit bis zu 16 Hochgeschwindigkeits-Transceivern (GTY-Transceiver in Xilinx-Terminologie) verbunden, die mit 0,50-32,75 Gbit/s arbeiten. Als CPUs integrieren sie wie auch die MPSoCs Quad-arm-Cortex-A53 und zwei Cortex-R5 für Echtzeitaufgaben. Hochgeschwindigkeitsschnittstellen umfassen 100G Ethernet, PCIe Gen4 und DDR4 SDRAM. Eine arm-GPU des Typs Mali-400 sucht man auf den RFSoCs vergeblich. 

Abgesehen davon, dass die arm-GPU fehlt, ähnelt das Verarbeitungssubsystem des RFSoC dem der Zynq-UltraScale+EG-Serie. Xilinx nennt den Quad-Core-Cortex-A53-Komplex die Anwendungsverarbeitungseinheit (APU). Diese 64-bit-CPUs arbeiten mit bis zu 1,5 GHz Taktfrequenz und enthalten jeweils 32-KB-Level-1-Befehls- und Daten-Caches. Die CPUs teilen sich 1 MB Level-2-Cache, der ECC unterstützt. Dank ihrer Speicherverwaltungseinheiten und ihrer vollständigen Kohärenz läuft die APU unter Linux und anderen eingebetteten Betriebssystemen.

Die Echtzeit-Verarbeitungseinheit besteht aus einem Dual-Core-Cortex-R5-Komplex. Jede 32-Bit-CPU enthält 32-KB-Befehls- und Datencaches sowie 128 KB eng angebundenen Speicher (TCM). Zusätzlich zu APU und RPU verfügt das Verarbeitungssubsystem über einen DRAM-Controller, der 32- und 64-Bit-Schnittstellen sowie bis zu 32 GB externen DDR4-, DDR3-, DDR3L- oder LPDDR3/4-Speicher verarbeitet. Der Multiport-DRAM-Controller ermöglicht den Zugriff der die programmierbaren Logik des Chips auf den externen Speicher.

Bei Basisstationen werden FPGAs in der Regel für das digitale RRH-Front-End (DFE) genutzt. Die RRHs nehmen mit zunehmender Anzahl von Antennen an Komplexität zu. Durch die Integration von A-D-Wandlern und D-A-Wandlern vereinfacht sich einerseits das Systemdesign, zum anderen reduziert sich die Leistungsaufnahme.

Umsetzer für Direkt- HF-Designs 

Die in den RFSoCs verbauten Wandler haben eine derart hohe Abtastfrequenz, dass sie HF-Frequenzen verarbeiten können. Eine Zwischenfrequenzstufe mit Mischer, Verstärker und Filter ist damit sowohl von der Sende- als auch von der Empfangsseite nicht nötig. Das Verschieben der Misch- und Filterfunktionen in die digitale Domäne ermöglicht zudem größere Bandbreiten z. B. bei Trägeraggregation. Bild 3 zeigt die Unterschiede zwischen einem konventionellen Design mit Zwischenfrequenzstufe und einem RFSoC-Design.

Der Hauptnachteil solcher HF-Designs besteht darin, dass Wandler, die mit Multi-GSPS-Abtastraten arbeiten, typischerweise mehr Energie aufnahmen als Wandler in einer ZF-Stufe, die mit typischerweise 250 MSPS arbeiten. Ohne einen ZF-Verstärker benötigen solche Designs höhere Verstärkungen vom rauscharmen Verstärker (LNA), was die Kosten für die HF-Stufe erhöht.

Wenn man sich diskrete Wandler mit diesen Abtastraten anschaut, stellt man fest, dass maximal 4 Kanäle vorhanden sind. Mit acht A-D-Wandlern und acht D-A-Wandlern ersetzt ein Xilinx RFSoC also mindestens jeweils zwei diskrete A-D- und zwei D-A-Wandler. Laut Xilinx spart das integrierte Design gegenüber diskreten Wandlern in einer 8x8-Konfiguration 27 W ein.

Laut einem auf der IEEE-Konferenz ISSCC im Februar 2017 veröffentlichen Dokument misst ein bei TSMC in dessen 16-nm-Prozess gefertigter A-D-Wandler 1,04 mm2 Siliziumfläche und nimmt bei 4,0 GSPS eine Leistung von 513 mW auf. Das Signal-Rausch-Verhältnis (SNDR) und der Dynamikbereich (SFDR) sollen vergleichbare Werte liefern wie die diskreten Pendants. Für Designs, die 2.0 GSPS oder weniger benötigen, ermöglicht Xilinx die Aufteilung der acht A-D-Wandler in 16 langsamere Wandler.

Diese Konfiguration ist zum Beispiel für 5G-Designs in den Millimeterwellenbändern nützlich, deren Frequenzen für eine Direktabtastung zu hoch sind und daher noch eine analoge Mischstufe erfordern.

Es ist schon bemerkenswert, dass das komplette RFSoC-Designs auf einem einzigen 16-nm-FinFET-Plus-Chip implementiert wurde, denn A-D- und D-A-Wandler hätten natürlich leicht in größeren Prozessgeometrien realisiert werden können.

Xilinx nutzt ja bereits seit Jahren 3D-Packages für Virtex-SoCs, um den Umfang der programmierbaren Logik zu skalieren. Für die RFSoCs entschied man sich dafür, die Leistungsaufnahme und Stückkosten zu minimieren.

LTE der 5. Generation 

Bild 4 zeigt das ZU27DR in einem 5G-RRH, wodurch fünf Chips zu einem konsolidiert werden. Die linke (analoge) Seite ist mit dem HF-Frontend verbunden, das LNAs und Filter in dem Empfangspfad und Leistungsverstärker in dem Sendepfad bereitstellt. Die A-D-Wandler setzen die empfangenen Signale in digitale Signale um, dann implementiert ein gehärteter Block das Mischen für die digitale Abwärtswandlung. Alternativ kann der RRH eine Schicht-1-Verarbeitung durchführen und die zentrale Basisbandverarbeitung entlasten.

Das Common-Public-Radio-Interface (CPRI), eine Schnittstelle zwischen Funkausrüstungssteuerung und Funkausrüstung einer Mobilfunk-Basisstation, empfängt Daten von der Basisbandeinheit für die Übertragung über die Luftschnittstelle. Wie bei der digitalen Abwärtswandlung behandelt ein gehärteter Block das Mischen für die digitale Aufwärtswandlung. Als nächstes werden Scheitelfaktorreduktion und digitale Vorverzerrung typischerweise unter Verwendung einer Kombination von DSP-Blöcken und Logikzellen implementiert. Während Rauschanteile aus dem Signal nicht mehr entfernt werden können, ist es durch digitale Vorverzerrung möglich, nicht-lineare Effekte auszugleichen. Die RFSoCs enthalten daher ungefähr so viele DSP-Blöcke wie Midrange-Virtex-UltraScale-plus-Chips.

 ZU21DRZU25DRZU27DRZU28DRZU29DR
CPUs Applikationen4 × 1,5 GHz arm Cortex-A53
Caches/Speicher A32 KB/32 KB L1-Cache für Daten/Befehle, 1 MB geteilter L2-Cache, 256 KB On-Chip-Speicher
CPUs Echtzeit2 × 533 MHz arm Cortex-R5
Caches/Speicher R32 KB/32 KB L1-Cache für Daten/Befehle, 128 KB TCM
Speicherschnittstellen32/64 bit DDR4, LPDDR4, DDR3, DDR3L, LPDDR3 mit ECC, 2 × Quad-SPI NAND
High-Speed-Konnektivität4 × PCIe Gen2, 2xUSB 3.0, SATA 3.1, DisplayPort, 4 × TriMode-Gbit-Ethernet
Konnektivität2 × USB 2.0, 2 × SD/SDIO, 2 × UART, 2 × CAN 2.0B, 2 × I2C, 2 × SPI, 4 × 32 bit GPIO
VerschlüsselungRSA, AES und SHA
Schnittstelle CPU-Subsystem zu programmierbarer Logik12 AXI-Ports mit 32/64/128 bit
HF-A-D_Wandler 12 bit, 4 GSPS08880
HF-A-D_Wandler 12 bit, 2 GSPS000016
HF-D-A-Wandler 14 bit, 6,4 GSPS088816
SD-FEC-Blöcke80080
Logikzellen930 K678 K930 K930 K930 K
CLB LUTs425 K310 K425 K425 K425 K
Block-RAM38 Mbit27,8 Mbit38 Mbit38 Mbit38 Mbit
DSP-Blöcke42723145427242724272
Transceiver  16 × GTY 32,75 Gbit/s  
PCIe Gen 3x16/Gen4x821222
150G Interlaken  1  
100G Ethernet MAC/PCS mit RS-FEC21222
FertigungTSMC 16 nm FinFET+
Package35 mm BGA42,5 mm BGA

 

Tabelle: Vergleich der UltraScale+ RFSoC-Chips von Xilinx.

Der Ausgang der Logik für die digitale Vorverzerrung wird in den D-A-Wandler eingespeist, der den digitalen Datenstrom in ein HF-Signal umwandelt. Die digitale Vorverzerrung benötigt eine Rückmeldung vom Sender (nach dem Leistungsverstärker), die von einem A-D-Wandler abgetastet wurde. Daher muss die Rückkopplungsschleife in einem 8×8-Frequenzduplex-Design, bei dem die Informationen für jede Richtung mit Hilfe einer anderen Trägerfrequenz übertragen werden, einen externen A-D-Wandler enthalten. Seltsamerweise hat Xilinx es versäumt, einen zusätzlichen (neunten) A-D-Wandler für diese Funktion einzubauen.

In Bild 2 behandeln die Cortex-A53-CPUs die Softwareseite der digitalen Vorverzerrung, die HF-Kalibrierung und optional die Beamforming-Steuerung (sofern die RRH diese Funktion implementiert). Beim Beamforming werden mehrere dicht beieinander angebrachte unidirektionale Antennen so mit HF-Signalen belegt, dass die Antennen-Arrays eine direktionale Abstrahlcharakteristik nachbilden. Die Abstrahlcharakteristik solcher Phased-Array-Antennen kann nach mathematischen Algorithmen geändert werden und zwar durch Änderung der Signalpegel und -phasenlagen.

Entweder eine A53- oder R5-CPU kann Betriebs- und Wartungsfunktionen ausführen. Xilinx bietet IP für die meisten der in der Abbildung gezeigten ungehärteten Funktionen, einschließlich Common-Public-Radio-Interface und digitale Vorverzerrung. Eine Partnerfirma mit dem Namen Comcores bietet IP zum Entlasten der Verarbeitungsschicht 1.

Konkurrenz - Fehlanzeige!

Der FPGA-Markt ist ohnehin übersichtlich. Intel und Xilinx teilen sich die High-End-Anwendungen, wobei seitens der DSP-Leistung ein Intel Stratix 10 SX dem Xilinx-SoC am ähnlichsten ist. Auch die Stratix-Chips implementieren Quad-Cortex-A53-CPUs sowie Transceiver mit einem Durchsatz von bis zu 28,3 Gbit/s. Der große Unterschied ist, dass man beim Stratix-Chip noch externe A-D- und D-A-Wandler hinzufügen muss. Dazu fehlen auch noch die gehärteten FD-FEC-Blöcke. Intel und seine Partner bieten zwar Low-Density-Paritätsprüfungen über Soft-IP für 5G-NR und Docsis 3.1 an, die Frage ist, wie viele FPGAs benötigt werden, um eine Leistung zu liefern, die der des Xilinx RFSoC entspricht.

Die einzig ernstzunehmenden Konkurrenten sind derzeit einmal mehr Asics, die von potentiellen Xilinx-Kunden selbst designt werden. Da 5G (noch) eine sehr dynamische Entwicklung vor sich hat, stellt sich jedoch die Frage, ob flexible FPGA-basierte Lösungen nicht die bessere Wahl sind. (fr)