Fehler durch kosmische Strahlung Soft-Errors in Halbleiterspeichern verstehen und ihre Folgen mildern

Von der Atmosphäre gestreute kosmische Strahlung
Von der Atmosphäre gestreute kosmische Strahlung

Kosmische Strahlung kann zu Soft-Errors führen mit fatalen Folgen. Im folgenden Beitrag erklärt Reuben George von Cypress die Ursachen dieser »weichen Fehler« und was man dagegen tun kann.

Die Halbleitertechnologie hat in den letzten Jahrzehnte ungeahnte Fortschritte gemacht. Jeder Fortschritt hat aber auch neue Hindernisse mit sich gebracht. Die damit einhergehende exponentielle Verbesserung der Prozesstechnologie war nicht immer einfach zu erreichen. Heute sind die Strukturen der CMOS-Technologie so fein geworden, dass die kosmische Strahlung und die Bauteilegehäuse in zunehmendem Maße zu Fehlern führen. Da diese Fehler nur vorübergehend auftreten, werden sie als Soft-Errors bezeichnet. Erstmals aufgetreten sind Soft-Errors im Jahr 1978, als Intel Chips an AT&T nicht ausliefern konnte, weil die Gehäusemodule mit Uran verunreinigt waren. Intel brachte dafür den Ausdruck „Soft Fail“ auf und berichtete, dass eine radioaktive Verunreinigung nicht nur zur Umkehr des Speicherinhalts einzelner Zellen sondern auch zum Lock-Up von Mikrocontrollern führen konnte. Bei Cypress Semiconductor sind Soft-Errors erstmals 2001 aufgetreten, als sich bei einem Großkunden im Bereich der Telekommunikation herausstellte, das ein einzelner Soft-Error in einem SRAM zum Absturz von mehreren Hundert Computern in einer System-Farm führte.

In dem Maß, in dem die Prozesstechnologie bei Speicher immer weiter nach unten skaliert wird, um höhere Leistung und einen niedrigeren Energieverbrauch zu erreichen, werden diese Bauteile wegen der geringeren Spannung und der niedrigeren Kapazität der Nodes anfällig für Soft-Errors. Soft-Errors beschädigen nicht nur Daten, sondern können auch zum Ausfall von Funktionen und zu systemkritischen Störungen führen. Controller in industriellen Steuerungen, militärische Geräte, Netzwerksysteme, medizinische Geräte, Kfz-Elektronik, Server, Handgeräte und Consumer-Elektronik sind gegenüber den negativen Auswirkungen von Soft-Errors besonders empfindlich. Ein nicht korrigierter Soft-Error kann in missionskritischen Anwendungen, z.B. bei medizinischen Implantaten und Kfz-Motorsteuerungen sowie in Hochsicherheitssystemen, Systemausfälle verursachen. Soft-Errors können Aufzugsteuerungen stören und in Netzwerken zum Zusammenbruch der Kommunikation führen. Derartige Vorfälle sind zwar selten, können aber massive Schäden anrichten.