Vorbild Natur Chips die Schmerz empfinden, können sich selbst heilen

Schmerzmessung an Chips

Die erste Bedingung zur Schaffung von selbstheilenden ICs ist ein verteiltes Überwachungssystem, das die »Schmerzen« im IC detektiert und exakt lokalisiert. Es gibt unterschiedliche Arten der Variabilität von integrierten Schaltungen, die überwacht werden müssen. Die wichtigste ist die Time-Zero- oder Zeitnullpunkt-Variabilität. Sie bezeichnet die Variation, die in integrierten Schaltungen nach ihrer Fertigung gegeben ist. Jeder Transistor verhält sich leicht unterschiedlich, noch bevor er mit irgendeiner Last beaufschlagt wird. Dies kann durch Prozessvariationen während der Fertigung bedingt sein, wird aber heute eher durch sogenannte »intrinsische« Quellen ausgelöst, wie Fluktuationen in der Dotierung oder der Kantenrauigkeit. Diese bereits zum Zeitpunkt Null vorhandene Variabilität gewinnt bei stark miniaturisierten Schaltungen immer mehr an Bedeutung.

Daneben gibt es auch eine zeitabhängige Variabilität: Jede Schaltung oder jeder Transistor altert in unterschiedlicher Weise über der Betriebszeit. Auch dies kann durch unterschiedliche Belastungsbedingungen hervorgerufen werden, aber auch durch intrinsische Mechanismen wie den zufälligen Einschluss von Defekten.

Dabei ist zwischen Effekten der funktionalen Zuverlässigkeit zu unterscheiden, die das digitale Verhalten der Schaltung beeinflussen, und den Problemen der parametrischen Zuverlässigkeit, die die Kenngrößen der Schaltung bestimmen, wie Verzögerung, Leistungsaufnahme und das Signal-Rauschverhältnis (SNR).
Die Zuverlässigkeit, sowohl der Schaltungen im IC, wie des gesamten Systems, ist durch die Time-Zero-Variabilität und der zeitabhängigen Variabilität der Schaltungen gegeben. Da diese Variationen immer weniger gut vorhersagbar sind, wird die Überwachung beider Effekte erforderlich. Entsprechende Monitorschaltungen sind inzwischen weitgehend erforscht, insbesondere im akademischen Bereich, und einige von ihnen werden bereits eingesetzt. Die meisten Chips haben heute schon funktionale Monitorschaltungen. In Speichern ist diese Fehlerdetektion relativ leicht integrierbar und durch einen Parity-Check durchführbar. Doch auch für die Datenpfade von Arithmetik-Einheiten, obwohl weniger einfach zu implementieren, wurden solche funktionale Monitorschaltungen entwickelt und sind bereits im Gebrauch. Parametrische Monitore sind derzeit allerdings noch weniger verbreitet. Sie werden hauptsächlich in stark miniaturisierten, leistungsfähigen ICs eingesetzt.

Mikrocontroller zur Chip-Heilung

Der wichtigste Teil zukünftiger selbstheilender ICs ist der Controller, sozusagen sein Gehirn, das sich sowohl mit den funktionalen, als auch mit den parametrischen Fehlern befassen muss. Beide Fehlerarten hängen zusammen. Doch es ist wichtig, den Anlass eines Problems zu beseitigen, statt auf dessen Folgen zu fokussieren. Wenn das Problem in einer Verzögerung besteht, dann ist auch das funktionale Verhalten der Schaltungen verschieden. Doch die Verzögerung ist der Auslöser. Wird andererseits ein lokales Bit-Flipping detektiert, dann muss eine Verbesserung der funktionalen Zuverlässigkeit durchgeführt werden.

Die Verbesserung der funktionalen Zuverlässigkeit besteht in der Heilung oder Beseitigung funktionaler Fehler. Die Verbesserung der funktionalen Zuverlässigkeit wird in Speicherschaltungen eingesetzt – beispielsweise bei 90 nm. Ein gutes Beispiel dafür sind ECC-Speicher (Error-Correcting Code) in denen die Bit-Flip-Probleme detektiert und korrigiert werden. Da in Speichern der Fokus auf Dichte und Miniaturisierung liegt, werden die zugehörigen Probleme und ihre Lösungen hier am ehesten sichtbar. Mit weiter gehender Miniaturisierung der Speicherzellen wird die Auslegung der ECC-Speicher allerdings wesentlich komplexer und mehr dezentral verteilt, bis irgendwann die Kosten zu hoch werden. Dann sind neue Techniken gefragt.

In Kooperation mit Spitzen-Universitäten wie EPFL (École Polytechnique Fédérale de Lausanne) arbeitet IMEC an lastabhängigen Techniken zur Verbesserung der Funktionen für Speicher und Datenpfade. Es gibt drei Ebenen, auf denen sich solche Verbesserungen integrieren lassen. Abschwächungseffekte auf der Schaltungsebene sind sehr allgemein ausgelegt. Sie können daher für unterschiedliche Architekturen und Applikationen eingesetzt werden. Doch sie bedingen einen gewissen Aufwand, der Chipfläche kostet und zusätzlich Energie aufnimmt.

Das andere Extrem ist die Verbesserung oder vorbeugende Maßnahmen zur Schadensminderung auf der Applikationsebene. Diese ist sehr spezifisch, sie muss für jede neue Applikaiton eigens entwickelt werden. Die meisten Hersteller scheuen davor wegen der damit verbundenen hohen Entwicklungskosten zurück. Dazwischen liegt die Verbesserung auf der Ebene der Systemarchitektur. Sie ist nicht allzu spezifisch und bedingt keinen übermäßigen Aufwand. IMEC fokussiert mit seinen akademischen Partnern auf die vorbeugende Schadensminderung auf der Architekturebene und der Schaltungsebene – letztere jedoch nur dann, wenn die Fertigungskosten niedrig gehalten werden können.

Außerdem entwickelt das IMEC im Hinblick auf die Probleme der parametrischen Zuverlässigkeit entsprechende belastungsabhängige Verfahren. Auch dabei spielen akademische Partner eine entscheidende Rolle. Zusammen mit der TU Delft arbeitet das IMEC an vorbeugenden Verfahren zur Schadensminderung auf der Schaltungsebene für SRAMs. Und mit der NTU Athen werden vorbeugende Verfahren zur Schadensminderung auf der Architektur-Ebene erarbeitet. Gemeinsam entwickeln die Partner einen Controller für ein teilweise proaktives System. Dieser Controller verhindert, dass sich Verzögerungsfehler auf der Systemebene ausbreiten und dort Schäden verursachen. Im Gegensatz dazu können auf der Schaltungsebene die Auswirkungen dieser Fehler nicht verhindert werden.

Die Zusammenarbeit mit Forschergruppen wie der von Guido Groeseneken ist sehr wichtig, denn sie liefert die Daten und Modelle für die Fehlermechanismen, die in den vorbeugenden Verfahren zur Schadensminderung eingesetzt werden. Der große Vorteil für IMEC in dieser Arbeit liegt darin, dass dort die gesamte notwendige Expertise unter einem Dach versammelt ist. Das gibt dem Institut eine herausragende Position in der Durchführung dieser Forschung.