IBM: Von-Neumann adé PCM-Speicher korrelieren 200 Mal schneller

Das Phase-Change-Material der PCMs besteht aus einer Schicht Germanium-Antimon-Tellurid, die zwischen zwei Elektroden angeordnet ist.
Das Phase-Change-Material der PCMs besteht aus einer Schicht Germanium-Antimon-Tellurid, die zwischen zwei Elektroden angeordnet ist.

Im Zeitalter von KI sehen Von-Neumann-Computer alt aus: Viel schneller und energiesparender ist In-Memory-Computing. IBM zeigt, dass es stabil arbeitet.

Wissenschaftler des IBM Forschungszentrums in Rüschlikon bei Zürich zeigen in einem von Nature Communications veröffentlichten Paper, dass ein unbeaufsichtigter Machine-Learning-Algorithmus, der auf einer Millionen Phase-Change-Memory-Zellen (PCM) abläuft, erfolgreich Korrelationen in vorher nicht trainierten, temporären Datensets finden kann.

Bei diesem »In-Memory-Computing« handelt es sich um ist eine neue Architektur, die die physikalischen Eigenschaften von Speichermedien nicht nur zur Speicherung, sondern auch für die Verarbeitung von Informationen nutzt. Dieser Ansatz steht im Gegensatz zu klassischen, so genannten Von-Neumann-Architektur, in der Daten zwischen dem Speicher und der Recheneinheit hin und her geschickt werden, was den Verarbeitungsprozess verlangsamt und Energie verbraucht.

Der Prototyp verspricht gegenüber den neusten Prozessoren auf Basis der Von-Neumann-Architektur eine 200-fache erhöhte Verarbeitungsgeschwindigkeit bei einer um zwei Größenordnungen reduzierten Energieaufnahme. Damit eignet sich die Technologie besonders für sehr dichte, energieeffiziente und hochgradig parallel arbeitende Computersysteme, die im Bereich der künstlichen Intelligenz Einsatz finden.

Grundlage des Ansatzes sind die PCM-Zellen. Hier nutzen die Forscher die »Kristallationsdynamik«, das heißt, die Zellen erreichen über die Zeit unterschiedliche Grade an Leitfähigkeit, was sich dazu verwenden lässt, Rechenoperationen durchzuführen: Nach einer Lernphase sind die Leitzustünde der PCM-Zellen sind „eingefroren“,  lassen sich nach der Operation aber auch wieder ändern. So können  Berechnung und Speicherung direkt lokal kombiniert werden – und zwar auf der Nanometer-Ebene. Die Forscher haben gezeigt, dass sich so sehr dichte, massiv parallele Computersysteme aufbauen lassen, die zudem den Vorteil haben, wenig Leistung aufzunehmen.

So funktioniert es

Die Grundidee dahinter: Der Speicher wird nicht als passive Einheit betrachtet, in der Daten einfach abgelegt werden, sondern man versucht die physikalischen Eigenschaften eines Speichers auszunutzen, um zu ermitteln, wo das gerade gewünschte Datum abgelegt ist. Eine gute Möglichkeit, dies umzusetzen, bieten Memristors. Die Information wird dann als Widerstands- bzw. Leitwert abgelegt. Neben logischen Operationen können resistive Speicher auch Matrix- und Vektor-Multiplikationen analog durchführen. Hardware-Beschleuniger auf dieser Basis sind Gegenstand intensiver Forschung.

Die Idee der Forscher von IBM: Die Formierung der Leitwerte über die Zeit, zu nutzen, um Rechenoperationen durchzuführen. Die Leitwerte lassen sich über elektrische Signale einstellen. Je nach der Operation, die ausgeführt werden soll, wird ein bestimmtes elektrisches Signal angelegt, das bestimmt, wie sich die Leitfähigkeit ändert. Das Resultat der Berechnung wird dann im Speicher direkt vor Ort abgelegt.

Auf Basis dieses Ansatzes konnten schon Zahlen in ihre Faktoren zerlegt werden. Allerdings sind die Abweichungen im Verhalten der PCM-Zellen während des Kristallisationsvorganges, der die Leitfähigkeit bestimmt, relativ groß. Deshalb konnte diese Methode bisher auf größere PCM-Speicher-Arrays noch nicht angewendet werden.

Doch jetzt haben die Forscher von IBM Berechnungen auf Basis eines Speicher-Arrays von 1 Million PCM-Zellen durchgeführt. Es gelang ihnen, nicht nur zu zeigen, dass das Verfahren robust und energieeffizient ist, sondern sie haben es auch auf Probleme aus der realen Welt angewendet, etwa für Korrelation von Wetterstationen.  Die Forscher führten die Korrelationsberechnungen auf Basis eines IBM Power System S822LC durch, das aus zwei POWER8 CPUs (mit jeweils 10 Cores) und vier Nvidia Tesla P100 GPUs besteht. Im Vergleich errechnete nun das auf PCM-Speichern basierende  System die Korrelationen um den Faktor 200 schneller – bei einer um zwei Größenordnungen geringeren Energieaufnahme.