IEDM 2019 Die Zukunft nichtflüchtiger Speicher

Neue Speicherprinzipien - Von ReRAM über PCRAM zu MRAM

Obwohl XL-Flash und BiCS Flash mit TSV die Systemleistung verbessern, besteht immer noch eine Leistungslücke zwischen DRAM und diesem neuen Speicher. Es gibt mehrere Kandidaten für SCM/persistente Speicher. Die Anforderung ist eine höhere Dichte und geringere Kosten als bei DRAM. Nachfolgende Speicher haben bereits Produkte für eigenständige und eingebettete Speicher mit geringer Dichte, sie dürften primäre Kandidaten für SCM/persistente Speicher sein.
Resistives RAM
Das resistive RAM nutzt den Unterschied zwischen hoch- und niederohmigem Zustand zum Ein- und Ausschalten. Es erfordert mindestens eine Differenz von mehreren Größenordnungen im Widerstandswert zwischen niedrigem und hohem Widerstand. Es gibt zwei Arten von Schaltmaterialien, die fadenförmig und nicht fadenförmig (Bulk) schaltend sind. Da das nicht-filamentäre Schaltmaterial von der Zellgröße abhängt, hat es einen Vorteil bei der Leistungsaufnahme, um ein hochdichtes resistives RAM zu realisieren.
Vorgeschlagen wurde ein hochdichtes resistives 32-Gbit-RAM. Bei SCM-Anwendungen ist für hohe Geschwindigkeiten ein größerer Zellstrom erforderlich als für Dateispeicher, und dann ist der durch nicht ausgewählte Zellen Kriechstrom ein großes Problem. Ein hoher Nichtlinearitätsfaktor (NLF) der Zelle selbst oder der Zelle in Kombination mit einem Selektor ist erforderlich, um den Leckstrom zu minimieren. Das Zellenfeld entspricht einer Kreuzschienenstruktur, und die einzige Möglichkeit, die Dichte zu erhöhen, ist einfach das Stapeln der Speicher-Arrays, das allerdings nicht kostenmäßig skaliert.
PCRAM
Chalkogenide wurden lange Zeit untersucht und sie wurden als Aufnahmematerial für optische Platten verwendet, und auch Chalkogenid-Speicher gab es auf dem Markt, obwohl die Dichte gering war. PCRAM (Phasenwechsel-Speicher) verwenden Chalkogenidmaterialien für das Zellelement. Die Joule-Erwärmung durch Zellstrom und Lösch-Sequenz ändert die Materialphase zwischen kristallin und amorph, was dem Ein-Zustand (niedriger Widerstand) und dem Aus-Zustand (hoher Widerstand) entspricht. Obwohl das Material eine gute Beständigkeitscharakteristik hat, stellt ein hoher Schreibstrom aus Sicht der Leistungsaufnahme ein Problem dar.
Die Löschzeit begrenzt auch die Schreibgeschwindigkeit. Die Skalierung der Speicherzellengröße hilft, den Schreibstrom zu reduzieren, jedoch wird die thermische Störung durch die Nachbarzelle zu einem großen Problem. Kürzlich wurden Speicher mit hoher Dichte als SCM oder persistenter Speicher realisiert. Diese verwenden einen Selektor, um eine ausreichende Ein-Aus-Charakteristik mit geringem Leckstrom zu realisieren. Eine gestapelte Zellstruktur wird ebenfalls verwendet, um eine hohe Dichte zu realisieren. Die Herausforderung besteht darin, wie weit sich der Zellabstand und die Stack-Zellschichten ohne Leistungseinbußen zu vernünftigen Kosten verkleinern lassen.
MRAM
Das MRAM wurde lange Zeit als ultimativer Speicher bezeichnet und sollte zu Beginn SRAM und DRAM ersetzen. Der Vorteil von MRAM ist die schnelle Schaltgeschwindigkeit im Vergleich zu anderen nichtflüchtigen Speichern. Wegen des großen Programmierstroms zur Induktion eines Magnetfeldes für das »Umschalten« von MRAM war es schwierig, Speicher mit hoher Dichte zu realisieren. Das Spin-Transfer-Drehmoment-RAM (STT-RAM) überwand dieses Problem und es wurde ein STT-RAM der Gbit-Klasse demonstriert. Kürzlich wurde zusätzlich zum eingebetteten Speicherelement ein 1-Gbit-STT-RAM in Pilotproduktion angekündigt. Das STT-RAM kann für einige Anwendungen als »nichtflüchtiges« DRAM verwendet werden. Um im SCM-Markt Fuß zu fassen, sollte es die Dichte um das 100-fache und mehr erhöhen. Der aktuelle MRAM nutzt Ionenstrahlätzen für die MTJ-Strukturierung, die aufgrund des Abschattungseffekts nur schwer zu reduzieren ist. Eine neue Entwicklung des Ätzprozesses ähnlich dem RIE ist erforderlich.
Das Stapeln der Zellschicht ist eine weitere Herausforderung, um eine hohe Dichte zu realisieren. Im Vergleich zu den anderen resistiven RAM-Typen ist das Ein-Aus-Widerstandsverhältnis relativ klein. STT-RAM leidet unter dem kleinen Auslesesignal und erfordert einen guten Leseverstärker. Um den Leckstrom zu reduzieren, ist die Kombination mit einem Selektor eine der Optionen, was jedoch die Prozesskomplexität und die Kosten erhöht.
Das PCRAM ist im Vergleich zu anderen aufstrebenden Speicherkandidaten für SCM/persistente Speicher in dieser Hinsicht führend. Im Moment sind jedoch die Skalierbarkeit gegenüber XL-Flash in Bezug auf Kosten und Dichte nicht klar. Jeder von ihnen hat Vor- und Nachteile (Tabelle).

SpeichertypPCRAMSTT-RAMReRAMXL-Flash
MaterialChalkogenidMagnetisches M.MetaloxidIsolator
SchaltmechanismusJoule-HeizungSpin-InjektionGitterlückeLadungsfalle
VorteileSpeicherdauerSpeicherdauer /
Niedrige Spannung
Niedrige SpannungNiedrige Kosten / Multi-Bit-Zellen
NachteileHohe LeistungsaufnahmeKleine On-Off-MargeRauschen / VariabilitätNiedrige Geschwindigkeit
Selektorerforderlicherforderlicherforderlichnicht erforderlich

 

Tabelle. Speichertypen im Überblick.

Zukunftsperspektive - Near- und In-Memory Computing

Technologische Innovation schafft neue Geschäfte, und das Wachstum neuer Geschäfte wird neue Hardware erfordern. Künstliche Intelligenz spielt in diesem Zyklus eine wichtige Rolle. Auch wenn 5G den Datentransfer zwischen Cloud und Edge verbessert, ist es nicht sinnvoll, alle Informationen in der Cloud zu manipulieren. Da die gesamte Leistungsaufnahme aller weltweiten Rechenzentren die von ganz Japan übersteigt, ist ein energieeffizientes Computersystem nicht nur für Cloud-, sondern auch für Edge-Computing erwünscht. Ein energieeffizientes datenzentrisches Edge-Computing-System ist der Schlüssel für das kommende Jahrzehnt.
Eines der Probleme derzeitiger tief lernender Systeme (Deep Learning) ist der Energieverbrauch und die Geschwindigkeit zwischen den Prozessorelementen (PE) und dem DRAM. Um dieses Problem zu lösen, wird »Near-Memory«- oder »In-Memory-Computing« vorgeschlagen. Da gibt es jedoch eine Abwägung zwischen Flexibilität und Effizienz. Es ist wichtig, für jeden Zweck einen geeigneten Speicher zu wählen. Lernen ist eine wichtige Funktion, und für In-Memory-Computing-Anwendungen ist eine präzise Steuerung des Leitungszustands jeder Speicherzelle auf analoge Weise unerlässlich. Der auf HfSiO-basierende ferroelektrische Tunnelübergang (FTJ) ist ein vielversprechender Kandidat, da er eine hohe Nichtlinearität und eine ausgezeichnete Gleichmäßigkeit ohne Selektor aufweist. Die Speicherzelle ist skalierbar und zeigt eine gute Lernleistung bei geringer Stromaufnahme.
Nicht nur die Hardware, sondern auch die Algorithmen sind wichtig, um ein energieeffizientes System zu realisieren. Eine große Anzahl von Multiply-Accumulate-Operationen (MAC) sind für ein tiefes Lernen erforderlich, aber sie führen zu einer langen Rechenzeit und einer hohen Stromaufnahme. Um sie zu bewältigen, sind zwei neue Techniken erforderlich: »filterweise optimierte Quantisierung mit variabler Präzision« (Bild 8) und »bitparallele MAC-Hardware-Architektur« (Bild 9). Die filterweise Technik optimiert die Anzahl der Gewichtsbits für jeden einzelnen von zehn- oder tausend Filtern auf jeder Schicht. Wenn die durchschnittliche Bitpräzision 3,6 bit beträgt, wird die Erkennungsgenauigkeit der schichtweise optimierten Quantisierung (Bild 8 Mitte) auf weniger als 50 % reduziert, aber die vorgeschlagene filterweise Quantisierung behält fast die gleiche Genauigkeit wie vor der Quantisierung bei, wobei die Rechenzeit reduziert wird.

Die bitserielle Technik (Bild 9 links) wird häufig in einer MAC-Architektur verwendet, aber wenn sie auf die filterweise Quantisierung (Bild 9 Mitte) angewendet wird, variiert die Ausführungszeit je nach der Bitgenauigkeit der Filter. Das für den Filter, dessen Rechenaufwand groß ist, zugewiesene PE kann zu einem Engpass werden. Bei der bitparallelen Technik (Bild 9 rechts) hingegen werden die verschiedenen Bitpräzisionen bitweise aufgeteilt und nacheinander mehreren PEs zugewiesen und parallel berechnet. Die Auslastung der PEs wird auf fast 100% verbessert und der Durchsatz wird ebenfalls erhöht. Durch die Implementierung auf einem FPGA wird der Bilderkennungstest von »ImageNet« mit dem 5,3-fachen Durchsatz und mit einer Rechenzeit und einer Energieaufnahme von nur 18,7 % durchgeführt.

Bitskalierung bleibt größte Herausforderung

Der NAND-Flash-Markt wächst aufgrund der Datenexplosion weiter. Bislang scheint es keinen Ersatz für NAND-Flash-Speicher zu geben, und die Beibehaltung der Bitkostenskalierung ist die größte Herausforderung. Es gibt einige technologische Optionen zur Verbesserung der NAND-Leistung, die bis zum SCM-Markt reichen. Nicht nur auf Ebene der Transistorstrukturen, sondern auch auf Systemebene gibt es Raum für weitere Verbesserungen. Neue Speicher sollen die Rechenleistung verbessern, allerdings bleibt die größte Herausforderung, DRAM-ähnliche Leistung zu NAND-ähnlichen Kosten zu erzielen. Es gibt einige aufstrebende Speicherkandidaten, mit denen sich SCM realisieren lassen. Grundvoraussetzung zum Durchbruch aber ist es, ihre Skalierbarkeit zu demonstrieren.