Mangelnde Qualität kommt teuer

Embedded-Diagnostics für hochverfügbare Systeme

8. Dezember 2010, 9:01 Uhr | Larry Osborn, Alan Sguigna
Diesen Artikel anhören

Fortsetzung des Artikels von Teil 1

Mangelnde Qualität kommt teuer

Fallbeispiel »Intel Itanium«

»Itanium«-Prozessoren von Intel bilden den Kern vieler geschäftskritischer High-End-Serversysteme, die unterbrechungsfreie Betriebsabläufe gewährleisten - beispielsweise im Online- oder Aktienhandel. Der Computerhersteller HP hat in seiner Server-Linie »Integrity« viele der RAS-Funktionen (Reliability, Availabiliy, Serviceability) des Itanium-Prozessors übernommen, um einen ununterbrochenen Betrieb zu garantieren.

Auf der Prozessor-ebene sind einige davon im Error-Handling-Guide dokumentiert. Eine recht nützliche Tabelle für die die Server-Prozessoren von Intel haben die HoffmanLabs [5] zusammengestellt (Tabelle 1).

passend zum Thema

Funktion
Plattformalternative
Beschreibung
Cache ECC Coverage
Xeon und andere x86
Erkennung und Korrektur von Cache-Fehlern
Single-bit Memory Error Correction
Xeon und andere x86
Erkennung und Korrektur von Single-Bit-Memory-Fehlern
Double-bit Memory Error Detection and Retry
Xeon
Erkennung von Double-Bit-Fehlern und Wiederholungsversuch einer Speicher-Leseoperation
Speicher-ECC auf dem Datenbus
Xeon MP
ECC-Schutz des Datenverkehrs auf dem Bus
Internal Logic Soft Error Checking
Als Spezialfunktion ausgewiesen
Memory-Parität für große Arrays
Bad oder Poisoned Data Containment
Als Spezialfunktion ausgewiesen
Host markiert fehlerhafte Stellen im Memory, damit der Prozessor sie nicht noch einmal benutzt
Cache Reliability, »Intel Cache Safe« oder »Pellston« Xeon MP
ECC-Test, der Hard- und Soft-Cachefehler während der Initialisierung und zur Laufzeit erkennen und unterscheiden kann. Deaktiviert in der Folge die Cache-Line mit dem Hard-Error.
Memory Sparing
Xeon (setzt Unterstützung durch das BS voraus und ist plattformspezifisch)
Macht zusätzlichen oder »Ersatz«-Speicherplatz verfügbar. Ist in einem Northbridges zu finden, darunter in den Intel-Chipsätzen 5000P und 5000X.
Memory Mirroring
Xeon (setzt Unterstützung durch das BS voraus und ist plattformspezifisch)
Konfiguriert redundante Memory-Arrays (RAID 1 für Memory). Ist in einigen Northbridges zu finden, darunter in den Intel-Chipsätzen 5000P und 5000X.
Hot Plug I/O
Alle Plattformen (setzt Unterstützung durch das BS voraus und ist plattformspezifisch)
Aktiviert/Deaktiviert PCI-X- oder PCIx-Controller beim Einschalten und Hochfahren des Systems.
Memory Hot-Swap
Xeon MP (setzt Unterstützung durch das BS voraus und ist plattformspezifisch)
Aktiviert/Deaktiviert Speicher beim Einschalten und Hochfahren des Systems.
Processor Lock Step
Xeon MP auf spezifischen Plattformen (setzt Unterstützung durch das BS voraus und ist plattformspezifisch)
Crosscheck der Prozessorausgabe pro Taktzyklus

Tabelle 1: Fehlerbehandlung bei »Itanium«- und »Xeon«-Prozessoren von Intel


Natürlich umfasst die gesamte RAS-Funktion wesentlich mehr als einfach nur die Features, welche die Prozessoren unterstützen. Die Plattform, das Betriebssystem sowie die System- und Applikationssoftware tragen alle zu den RAS-Eigenschaften des Systems bei.

Ein Beispiel dafür sind die RAS-Merkmale, welche die Embedded-Instrumentierungsfunktionen des IBIST (Interconnect Built-In Self Test) von Intel unterstützen und auf den Itanium- sowie auf den höherwertigen Xeon-Plattformen implementiert sind. Diese Instrumentierung in den Chips validiert die Integrität der High-Speed-I/O-Signale von Leiterplattendesigns mithilfe von Physical-Bit-Error-Rate- und Margin-Tests.

Mithilfe von IBIST lassen sich Fertigungsabweichungen in der Fabrik und im Feld feststellen, beispielsweise Lötblasen (Voids), Haarrisse, unvollständig plattierte Durchkontaktierungen, Restringausbrüche, Belichtungsfehler (z.B. Pinholes, Risse, Kratzer), Abweichungen der Schichtdicke und Schichtablösungen.

Literatur
[1] Harrington, Poor Quality Costs, American Society for Quality,
      ISBN 9780824777432, OCLC 14965331, 1987
[2] Peratec Limited, Total Quality Management, Springer,
      ISBN 0412586401, September 2009
[3] Pyzdek und Keller, The Six Sigma Handbook, McGraw Hill,
      September 2009
[4] Accenture, Big Trouble with »No Trouble Found« Returns, 2008
[5] HoffmanLabs, Itanium Reliability, Availability and Serviceability (RAS) Features, http://labs.hoffmanlabs.com/node/95, Februar 2007


  1. Embedded-Diagnostics für hochverfügbare Systeme
  2. Mangelnde Qualität kommt teuer

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Entwicklungswerkzeuge