ISSCC 2005 – Neue Trends bei Speicher-Chips Frische Gedächtniskünstler #####

Auf der weltweit bedeutendsten Chipkonferenz ISSCC haben auch die modernsten Entwicklungen bei Speicherchips ihren Platz. Drei Sessions beschäftigten sich mit den neuesten Trends bei den Gedächtniskünstlern aus Silizium. Das Programm deckt dabei sowohl nichflüchtige als auch dynamische und statische Speicher ab.

ISSCC 2005 – Neue Trends bei Speicher-Chips

Auf der weltweit bedeutendsten Chipkonferenz ISSCC haben auch die modernsten Entwicklungen bei Speicherchips ihren Platz. Drei Sessions beschäftigten sich mit den neuesten Trends bei den Gedächtniskünstlern aus Silizium. Das Programm deckt dabei sowohl nichflüchtige als auch dynamische und statische Speicher ab.

Praktisch jedes elektronische System verfügt heutzutage über mehr oder weniger Speicher, sei es nun ein Speicherblock, der auf einen Controller integriert wurde, oder ein separater Chip auf einer Systemplatine. Trotz der dringenden Notwendigkeit im System fristen die Speicher im Bewusstsein des Entwicklers eher ein Schattendasein: „Da war etwas, was man ja auch noch braucht.“ Die Gründe dürften in der weitgehenden Konformität und Ersetzbarkeit der Bausteine unterschiedlicher Hersteller liegen, wo dann letztlich nur der Preis entscheidet. Das darf jedoch nicht zu dem Trugschluss führen, dass es in der Speicherentwicklung nichts Interessantes geben würde.

Die International Solid-State Circuits Conference 2005 in San Francisco hat gezeigt [1], dass sich durchaus auch bei den wirtschaftlich derzeit unter Druck geratenen Speicher-Bausteinen interessante Innovationen ereignen, seien es nun 8-Gbit-Flash-Speicher oder mit 4,8 GHz getaktete SRAM-Blöcke in einem Mikroprozessor.

Speicher-Technologien für die nächsten ITRS-Knoten

Einen Blick in die Zukunft der konventionellen Speicherbausteine gewährte der Koreaner Kinam Kim von Samsung. In seinem Paper „Speicher-Technologien in der Nano-Ära: Herausforderungen und Chancen“ erläuterte er die technologischen Grenzen der konventionellen Skalierung von Speichern und zeigte auch Lösungsansätze auf.

Die technologische Grenze bei DRAMs ist die weitere Skalierung der Speicherzelle. Die zunehmende Dotierungskonzentration aufgrund einer verkürzten Kanallänge geht einher mit einerabnehmenden Dauer des Datenerhalts (retention time), wenn man sich 90-nm-Strukturgrößen nähert. Dieses Problem lässt sich durch den Einsatz von nicht-planaren Transistoren lösen. Mit einer RCAT-Struktur (Recessed Channel Array Transistor) lässt sich die effektive Kanallänge verlängern, ohne dass die Prozesskomplexität signifikant zunehmen würde. Für die Skalierung unter 50 nm ist allerdings ein neuer Ansatz erforderlich: Mit FinFET-Strukturen (um den Kanal umlaufende Gate-Elektroden) lässt sich das Durchbruchverhalten durch die Dicke des Silizium-Kanals einstellen. FinFETs bieten eine höhere Stromtragfähigkeit sowie eine bessere DIBL-Charakteristik (Drain Induced Barrier Lowering) im Vergleich zu konventionellen Transistoren oder RCATs. Bessere DIBL-Werte wiede-rum verbessern den Datenerhalt bei DRAMs. Kim sieht daher den Schlüssel zur Lösung der mit der weiteren Schrumpfung der Strukturgrößen unter 50 nm einhergehenden Probleme in der FinFET-Struktur.

Auf dem Gebiet der NAND-Flash-Speicher betrachtet Kim die Skalierung des „Floating Gate“ als die größte Herausforderung, denn die einzelnen Zellen stören sich gegenseitig. Mit sinkendem Abstand zwischen den Wort-Leitungen wird der programmierte Zustand einer Zelle durch kapazitive Kopplung zwischen den Floating Gates benachbarter Zellen beeinflusst. Diesem Problem lässt sich mit einem Dielektrikum niedriger Konstante dazwischen sowie einer Skalierung der Höhe des Floating Gate beikommen. Mit dem Einsatz von Siliziumoxid anstelle von Siliziumnitrid als „Gate-Spacer“ (Isolationsmaterial zwischen zwei Gates) lässt sich das kapazitive Kopplungsverhältnis um 60 % abschwächen. Die Verwendung einer „Charge-Trap“-Flash-Speicherzelle kann das Kopplungsverhältnis sogar in die Nähe von Null bringen. FinFET-Zellen versprechen ein gutes Programmierverhalten bis hinab zu 30-nm-Strukturgrößen. Darüber hinaus erhöht die hohe Stromtragfähigkeit die Signalmarge bei Lesevorgängen im NAND-Flash-Speicher. Kim erwartet, dass Charge-Trap-Zellen in Verbindung mit FinFET-Strukturen die technische Lösung der Wahl für Strukturgrößen unter 50 nm sein werden (Bild 1).

Bei NOR-Flash-Speichern kommt es auf hohe Drain-Ströme zur effizienten Erzeugung und Injektion von heißen Elektronen in das Floating Gate an. Allerdings sorgen hohe Drain-Ströme für unerwünschte Drain-Störungen bei anderen Zellen, die mit derselben Bit-Leitung verbunden sind. Dieser Effekt nimmt mit abnehmenden Strukturgrößen noch erheblich zu. Dummerweise lässt sich eine abwärts skalierte Drain-Spannung, die die Drain-Störungen verringert, nicht unter die Si-SiO2-Barriere von 3,1 eV senken, eine Grenze, von der man vermutet, dass sie unterhalb von 70 nm kritisch wird. Ein vielversprechender Kandidat für ein Ersatzmaterial mit hoher Dielektrizitätskonstante ist HfO2 mit einer Energie-Barriere von 1,5 eV. Die Anwendung von HfO2 in NOR-Flash-Speichern schiebt das Limit für die Drain-Spannung auf 1,5 V und erlaubt damit die Skalierung von NOR-Flash unter die 70-nm-Marke. Zusammen mit FinFET-Strukturen lässt sich die Abwärts-Skalierung dann noch weiter fortsetzen. Das hervorragende Durchbruchverhalten von FinFET-NOR-Flash-Zellen macht sie gegen Drain-Störungen unempfindlich. Es wird erwartet, dass FinFET-Strukturen mit HfO2-Gate-Oxid die Fertigung von NOR-Flash-Speichern bis unter 50 nm erlauben.

Bei den statischen RAMs ist der grundlegende Begrenzungsfaktor die Zellengröße. Eine Möglichkeit zur Reduzierung der Zellengröße ist die vertikale Aufeinanderstapelung der Transistoren mit einem „Stacked Single-Crys-tal Thin Film Transistor“-Verfahren (SSTFT). Durch die Integration von „Load PMOS“-Transistoren und „Pass NMOS“-Transistoren in den dielektrischen Schichten zwischen den Metallisierungen (ILD – Interlayer Dielectric Layers) lässt sich die Zellengröße mit doppelten SSTFT-Schichten auf 25 F2 reduzieren (F entspricht der Strukturgröße des Prozesses). Darüber hinaus lässt sich die Multi-Level-Technologie einfach auf die peripheren CMOS-Schaltungen ausdehnen. Die Fläche der beiden NAND-Eingangsschaltungen wird mit dem SSTFT-Ansatz um 45 % reduziert und minimiert gleichzeitig die Kapazität zwischen Source und Drain. So ergibt sich ein Geschwindigkeitsvorteil von 20 % im Vergleich zu Bulk-Silizium.

Ferroelektrische RAMs (FRAMs) sind derzeit noch durch vergleichsweise niedrige Komplexitäten gekennzeichnet, daher kommt einer Verkleinerung des ferroelektrischen Kondensators bei gleichzeitiger Beibehaltung sauberer Kondensatoreigenschaften eine hohe Bedeutung zu. Eine ausreichende Anzahl an Polarisations-Ladungen muss sichergestellt werden, um bei der Skalierung von Spannung und Zellengröße eine ausreichende Signalerfassungsmarge zu gewährleisten. Mit einem metallorganischen Gasabscheideverfahren (Metal-organic Chemical Vapor Deposotion – MOCVD) und einem neuen Elektrodenmaterial lässt sich eine vernünftige Signalerfassungsmarge erzielen. Das MOCVD-Verfahren bietet eine exzellente konforme Abscheidung, die schließlich zu einer dreidimensionalen Kondensator-Struktur mit einer auf die Prozess-Strukturgrößen bezogenen Zellenfläche von 6 F2 führt.

Bei magnetoresistiven RAMs (MRAMs) sind derzeit die Schaltselektivität, die Signalerfassungsmarge und die relativ große Zellengröße der Hemmschuh. Die Zellenfläche lässt sich mit einer Optimierung des MRAM-Zellenaufbaus erreichen: Mit einer „Split-Digit-Line-Struktur“ kann man die Zellenfläche von etwa 20 bis 50 F2 auf bis zu 8 F2 verkleinern. Wenn sich gleichzeitig die Schaltselektivität verbessern lässt, hätten MRAMs das Zeug zu einem kosteneffektiven und schnellen Speicher.

Phasenwechsel-Speicher (Phase-change RAM – PRAM) versprechen eine einfache Skalierbarkeit ohne fundamentale physikalische Grenzen – zumindest bis hinunter zum CMOS-Limit. Allerdings sind die hohen Programmierströme das praktisch bedeutsamste Hindernis auf dem Weg zu hochdichten Speichern. Entwicklungsansätze zur Reduzierung der Rücksetzströme lassen sich daher auch der Reduzierung der Zellengröße zuordnen. Entscheidend für die Zellenverkleinerung bei PRAMs und eine entsprechende Abwärtsskalierung ist der Grad der Reduzierung des Rücksetzstroms.

Trotz der Hindernisse auf dem Weg zur Entwicklung künftiger Speicherchip-Generationen zeichnet sich derzeit ab, dass konventionelle Speicher mindestens bis zum Technologieknoten von 30 bis 40 nm hinab mit den geschilderten Maßnahmen realisierbar sind. Einen Überblick über konventionelle Speicher und eingesetzte Technologien und Materialien gibt Bild 2.

Bei den nichtflüchtigen Speichern beherrschten hochdichte Flash-Speicher mit einer Kapazität von 8 Gbit und Multi-Level-Zellen-Technik die Szene. Unabhängig voneinander präsentierten die japanische Toshiba und die koreanische Samsung ihre für Massenspeicher-Anwendungen gedachten 8-Gbit-NAND-Flash-Speicher [2]. Während der in einem 70-nm-Prozess gefertigte 8-Gbit-Chip von Toshiba bei einer Zellenfläche von 0,024 µm2 146 mm2 misst, kommt der in einem 63-nm-Prozess hergestellte Samsung-Baustein (Bild 3) mit einer Zellenfläche von 0,02 µm2 auf 133 mm2. Beide NAND-Flash-Chips setzen auf Multi-Level-Zellen-Technik mit vier unterscheidbaren Spannungspegeln, so dass pro Zelle 2 bit gespeichert werden können. Ein weiterer Fortschritt wurde bei der Programmiergeschwindigkeit erzielt, die jetzt in etwa der von Single-Level-Bausteinen entspricht, die nur 1 bit pro Zelle speichern. Toshiba gibt die Programmiergeschwindigkeit mit 6 Mbyte/s an, und Samsung erreicht 4,4 Mbyte/s. Ebenfalls auf Multi-Level-Zellen-Technik basiert der 4-Gbit-AG-AND-Flash-Speicher (Assist Gate AND) von Hitachi/Renesas, der in einem 90-nm-Prozess gefertigt wird (Bild 4). Die Zellengröße beläuft sich bei diesem Chip auf 0,0162 µm2, der gesamte Chip misst 126 mm2. Dank einer selbstverstärkten Ladungsinjektionstechnik (self boosted charge injection) wird eine Programmiergeschwindigkeit von 10 Mbyte/s erzielt.

Auf dem Gebiet der nichtflüchtigen Phasenwechsel-Speicher (PRAM) hat sich Samsung betätigt: Dabei kam ein 64-Mbit-PRAM mit einer Betriebsspannung von 1,8 V heraus, das in einem 0,12-µm-Prozess gefertigt wurde (Bild 5). Die Verbesserungen bei der Verteilung der Setz- und Rücksetzströme basieren auf einer Stromregelung auf Zellenebene und mehreren Abwärts-Impulsgeneratoren. Die Lesezeiten liegen bei 68 ns, die Schreibdauer bei 180 ns.

An der Front der NOR-Flash-Speicher, die beispielsweise in großem Umfang in Mobiltelefone wandern, setzen sich ebenfalls in zunehmendem Maße Multi-Level-Zellen-Konzepte durch. Der französisch-italienische Halbleiterhersteller STMicroelectronics präsentierte einen 256-Mbyte-NOR-Flash-Speicher, der 2 bit pro Zelle speichert, in einem 0,13-µm-Prozess hergestellt wurde und bei einer Zellengröße von 0,16 µm2 eine Chipfläche von 55,5 mm2 aufweist. Der Baustein arbeitet mit einer Betriebsspannung von 1,8 V und stützt sich auf ein „fast Gate-voltage-ramp constant-current-reading“-Konzept (kurze Anstiegszeiten der Gate-Spannung halten den Strom in der Zelle konstant), das eine robuste „read-while-write/erase“-Funktion (gleichzeitiges Schreiben und Lesen) und einen Burst-Lese-Betrieb mit 125 MHz erlaubt.

Von einem 512-Mbyte-NOR-Flash-Speicher, der ebenfalls 2 bit pro Zelle speichert, berichtete Intel. Der in einem 90-nm-Prozess realisierte Chip erreicht eine Programmiergeschwindigkeit von 1,5 Mbyte/s und gestattet einen synchronen Betrieb mit 166 MHz. Zu den schaltungstechnischen Besonderheiten gehören die Zwei-Zeilen-Programmierung, optimierte Schaltungen zur Programmsteuerung sowie ein 3-Transistor-Zeilendecoder, der nicht ausgewählte Zeilen negativ vorspannt, und konfigurierbare Ausgangspuffer. Die Chipfläche beträgt 42,5 mm2 und die Zellen messen 0,076 µm2.

Eine höhere Programmiergeschwindigkeit bei Flash-Speichern lässt sich mit der parallelen Programmierung mehrerer Zellen erreichen. Ein typischer Flash-Speicher, der mit einer Betriebsspannung von 1,8 V versorgt wird, braucht in der Regel eine Spannung von 6 V bei hohen Strömen zur Programmierung der Speicherzellen. Normalerweise erzeugt eine kapazitive Ladungspumpe die über der Betriebsspannung liegende Programmierspannung. Wollte man auf diese Weise mehrere Zellen parallel programmieren, würden schnell Chipfläche und Leistungsaufnahme drastisch zunehmen. Eine ungewöhnliche Konstruktion hat Intel bei einem 128-Mbyte-NOR-Flash-Speicher gewählt, bei dem eine Induktivität auf den Flash-Speicher-Chip gebondet wurde, die die Betriebsspannung erhöht und die Energie auf einen Kondensator überträgt. Die dazugehörige Steuerschaltung ist auf den Die integriert. Vorteile dieses Ansatzes sind – dank ei-nes höheren Wirkungsgrades von 85 % – eine niedrigere Stromaufnahme von 47,5 mA im Vergleich zu einer kapazitiven Lösung (Wirkungsgrad 20 %) sowie eine kleinere Chipfläche. Mit der induktiven Spannungsverstärkung lassen sich 16 bis 32 Zellen parallel programmieren anstelle von 2 bis 4 bei einer rein kapazitiven Lösung, so dass nun eine Programmiergeschwindigkeit von 3 Mbyte/s bei einem Programmierstrom von 21 mA möglich wird.

Dynamische Speicher – hohe Bandbreiten und hohe Speicherdichten

Dynamische Speicher haben in jüngster Zeit bedeutende Fortschritte im Einsatz in Applikationen gemacht, die hohe Übertragungsbandbreiten erfordern. Neben konventionellen DRAMs lassen sich auch Entwicklungsansätze in Richtung von Silicon-on-Insulator- (SOI) und Dual-Ported-DRAMs sowie in Richtung besonders schneller und besonders sparsamer DRAMs beobachten. Mit weiter schrumpfenden Strukturen spielen auch die Prozessabweichungen eine immer größere Rolle. Aufwendige statistische Analysen korrelierter Prozessparameter ermöglichen eine genauere Modellierung der „Worst-case“-Bedingungen in der Variation der Bauelemente-Parameter.

Einen skalierbaren kondensatorlosen 128-Mbit-DRAM-Baustein mit „Floating Body Cell“ stellte Toshiba vor (Bild 6). Der auf SOI-Basis hergestellte, 64,6 mm2 große Chip verfügt über eine Ladungsauffüll-Funktion (charge-replenishing), die das Datenerhalt-Verhalten verbessert. Die Zugriffszeiten liegen bei 18,5 ns im Normalbetrieb. Ferner gibt es einen virtuellen SRAM-Mode (VSRAM), der sich auf die Eigenschaft des quasi nichtdestruktiven Lesevorganges stützt, wobei hier die Zugriffszeit bei 25,7 ns liegt.

Zufallszugriffe bei einer Taktfrequenz von 300 MHz sind heute bei Embedded DRAMs Stand der Technik. Dass die präzise Abstimmung von Schaltungen die Erfassungsmargen erheblich erhöhen kann, zeigte ein 322-MHz-Embedded-DRAM von Matsushita. Der in einem 90-nm-Logikprozess realisierte Baustein ist durch eine rauscharme Architektur und eine hochgenaue Abstimmung nach der Fertigung gekennzeichnet. Mit einer Kapazität der Zelle von 5 fF, einer Verbesserung von 61 % bezüglich der Erfassungsgenauigkeit (sensing accuracy), lässt sich der Chip mit 322 MHz betreiben und benötigt nur eine Leistung von 60 µW für die Datenauffrischung. Gleichzeitig hat Matsushita noch ein 400-MHz-Dual-Port-Interleaved-DRAM mit „Striped Trench“-Kondensator-Zelle (Bild 7) und einer Kapazität von 10 fF vorgestellt, das in einem 0,15-µm-Prozess realisiert wurde. Zu den Spezialitäten gehören bei diesem Chip eine „sense-signal-loss“-Kompensation, die auf dem genauen Rauschverhalten basiert, sowie eine „write-before-sensing“-Schaltung.

Zu den klassischen DRAM-Bausteinen gehören zwei von Samsung vorgestellte Bausteine, die beide in 80-nm-DRAM-Prozessen hergestellt wurden: Bei einem Baustein handelt es sich um ein 2-Gbit-DDR2-SDRAM mit einer Datenübertragungsrate von 800 Mbit/s pro Pin, das in einem Triple-Metal-Prozess für eine Betriebsspannung von 1,8 V gefertigt wurde. Beim Entwurf des 195,6 mm2 großen DRAM wurde von statistischer Schaltungsanalyse und einem „NMOS-Precharge-I/O-Scheme“ Gebrauch gemacht. Die Speicherzelle auf Basis eines MIM-Kondensators misst 0,054 µm2. Der zweite DRAM-Baustein mit einer Speicherkapazität von 256 Mbit zeichnet sich durch eine Datenübertragungsrate von 20 Gbyte/s aus. Eine präzise Quadratur-PLL, die von einem induktivitätslosen tetrahedralen Oszillator gesteuert wird, erzeugt inhärente Quadratur-Phasen, die zusammen mit einem kaskadierten „Pre-Emphasis-Transmitter“ eine Datenrate von 10 Gbit/s pro Pin ermöglichen.

Etwas exotischere Vertreter der dynamischen Speicher sind die CAMs (content addressable memories), die auf die Eingabe von Daten zugehörige Speicheradressen ausgeben. Für diese, typischerweise in Vernetzungsanwendungen eingesetzten Bausteine sind eine hohe Suchgeschwindigkeit und eine niedrige Leistungsaufnahme wichtig. Forscher von der Cheng-Chung-Universität in Taiwan haben dazu einen CAM-Chip in einem 0,18-µm-CMOS-Prozess mit einer Betriebsspannung von 1,8 V realisiert. Der CAM-Baustein mit einer Organisation von 256 x 128 bit auf Basis einer AND-Architektur bietet eine kürzere Suchzeit von 1,75 ns bei einem um rund 20 % reduzierten Energieverbrauch von 0,57 fJ/bit/Suche im Vergleich zu NOR- und NAND-Architekturen.

Bei den statischen Speichern (SRAMs) ist das Ende der Entwicklung nicht abzusehen. Die klassische 6-Transistor-Zelle ist nach wie vor weit verbreitet und doch zeigen die Papers auf der ISSCC Fortschritte bei der Dichte, bei der Reduzierung der Leckströme, beim Betrieb mit immer niedrigeren Spannungen sowie bei der Leistungsaufnahme.

Intel stellte ein 70-Mbit-SRAM vor, das in einem 65-nm-Prozess gefertigt wurde und sich bei einer Betriebsspannung von 1,1 V mit einer Taktfrequenz von 3 GHz betreiben lässt. Eine dynamische Umschaltung zwischen zwei Stromversorgungen optimiert – abhängig von den Betriebsarten Schreiben, Lesen und Stand-by – die Leistungsaufnahme und Performance des Speichers.

Einen mit einer Taktfrequenz von 4,8 GHz besonders schnellen SRAM-Cache präsentierte IBM (Bild 8). Der Cache mit 6-stufiger Pipeline ist Teil des Cell-Prozessors und wurde in einem 90-nm-SOI-Prozess realisiert [3].

Samsung berichtete von einem 256-Mbit-DDR-SRAM mit hierarchischer Bit-Leitungs-Architektur. Im Gegensatz zum planaren Aufbau norma-ler SRAM-Zellen stapelte man Einkristall-Silizium-Dünnschicht-Transistoren(single-crystal-silicon TFT), womit man eine kompakte Zellenfläche von 0,16 µm2 erzielen konnte (Bild 9). Der in einem 80-nm-Prozess realisierte, 61,1 mm2 große Chip erreicht eine Datenrate von 280 Mbit/s bei einem Strom von 17 mA.

Einen neuen Rekord bezüglich niedriger Betriebsspannungen dürfte Matsushita mit einem 32 kbit großen SRAM-Block zum Einsatz in 0,13-µm-CMOS-Prozessen aufgestellt haben: Das SRAM arbeitet schon mit Spannungen von 0,3 V, allerdings dann nur mit Taktfrequenzen von 6,8 MHz. Für 30 MHz sind bereits 0,4 V erforderlich und bei 1,5 V steigt die maximale Taktfrequenz auf 960 MHz. Zwei Entwurfsmaßnahmen ermöglichen die niedrigen Spannungswerte: ein Zugriffsverfahren, das Baustein-Streuungen toleriert, und ein gegen kosmische Einstrahlung immunes Fehlerkorrekturverfahren (ECC). Nicht weit weg davon ist das 64-Kbit-Makro für 90-nm-Designs von NEC: Das SRAM-Makro kommt mit einer minimalen Betriebsspannung von 440 mV aus. Im typischen Betrieb mit 0,5 V beträgt die Zugriffszeit 20 ns. Ebenfalls auf eine niedrige Spannung von minimal 0,8 V ist das 512 Kbit große Embedded-SRAM-Modul von Hitachi getrimmt. Bei einem Leckstrom von 7,8 µA lässt sich der Speicherblock immerhin mit 450 MHz takten.

Ein echtes Schwergewicht ist der SRAM-Cache auf dem neuesten Dual-Core-Itanium-Prozessor von Intel und HP: Der 24 Mbyte große L3-Cache umfasst mehr als 1,47 Mrd. Transistoren [3]. Der Cache stützt sich auf asynchrone Schaltungstechniken, um Latenzzeiten und die Leistungsaufnahme möglichst niedrig zu halten. Das 5-Zyklen-Array arbeitet mit 2 GHz bei 0,8 V und 85 °C und nimmt weniger als 4,2 W auf.