Entwicklungsziel Zuverlässigkeit Die MTBF ist nur ein Glied in der Kette

Zuverlässigkeit ist ein wichtiges Entwicklungsziel. Als zentrale Metrik zu deren Abschätzung gilt gemeinhin die MTBF. Allerdings ist sie nur ein Glied in der Kette der Zuverlässigkeit. Wie lässt sich die Zuverlässigkeit genau bestimmen? Und wie kann man ein System zuverlässiger machen?

von Adam P. Taylor, Head of Systems Engineering bei e2v technologies.

Treibende Kräfte beim Thema Zuverlässigkeit in industriellen Systemen sind das wirtschaftliche Ergebnis und die Reputation des Anbieters. Als sekundäre Bedingungen gelten der sichere Betrieb des Systems im Fehlerfall und die Abgabe einer Fehlermeldung, die das aktuelle Problem umreißt. Unter kommerziellen Gesichtspunkten müssen die Entwickler sicherstellen, dass die gefertigten Produkte ihre vorgeschriebenen Garantiebedingungen erfüllen.

All das fließt in die Zuverlässigkeitsbetrachtungen beim Systemdesign ein. Der Einsatz von FPGAs beispielsweise erlaubt höher integrierte Systemlösungen. Das erhöht auch den MTBF-Wert, insbesondere, wenn der Hersteller der Bausteine dem Anwender regelmäßige vierteljährliche Zuverlässigkeitsreports zur Verfügung stellt. Der Hersteller Xilinx bietet dies unter der Bezeichnung UG116.

Die MTBF (Mean Time Between Failures) ist ein Maß für die Wahrscheinlichkeit, dass ein System über seine Lebensdauer gemäß den Spezifikationen operiert, oft veranschaulicht in der bekannten »Badewannenkurve« (Bild 1). Für eine zuverlässige Designlösung muss eine Entwicklungsumgebung die korrekten Vorgaben, Review-Schranken, Designregeln und Richtlinien anbieten, zusammen mit unabhängigen Peer-Reviews zu den angemessenen Zeitpunkten im Lebenszyklus eines Produkts.

Die Definition des MTBF-Werts ist eine statistische Voraussage über die Zeit zwischen zwei Ausfällen während der Betriebszeit eines Systems. Die Hersteller berechnen die MTBF eines Systems als Reziprokwert der Summe der Ausfallraten seiner Komponenten. Diese Ausfallraten werden meist als FIT-Rate (Failure In Time) bezeichnet, in der Größenordnung 1 ∙ 10-9 pro Stunde. Angaben über die Ausfallraten erhält man vom Hersteller der Komponenten oder entnimmt sie einem Standardwerk wie dem US-Military Handbook MIL-HDBK-217F oder Bellcore/Telcordia SR332.

Allerdings sind diese Ausfallraten nur gültig im Bereich des geradlinigen Verlaufs der Badewannenkurve nach Bild 1. Diese Kurve setzt die Frühausfälle (Infant Mortality) bei der Einführung eines Produkts ins Verhältnis mit den Ausfällen während der normalen Lebensdauer (Constant Failure Rate) und den Ausfällen zum Ende der vorgesehenen Lebenszeit (Wear Out). Um Frühausfälle auszuschließen, nutzen Hersteller eine Burn-in-Prozedur während der Produktion. Die dabei applizierten Temperaturzyklen beschleunigen die Ausfälle durch latente Defekte vor der Auslieferung und der Systemintegration.

Viele nehmen an, dass das untersuchte System zumindest in der dem MTBF-Wert entsprechenden Zeitspanne erfolgreich arbeitet. Leider ist dies so nicht korrekt, denn die MTBF ist nur eine statistische Repräsentation der Ausfallrate, die man in der Nutzungsphase eines Produkts erwarten kann. Nochmals: MTBF repräsentiert nicht die vorhergesagte Lebenszeit des Produkts. Um die vorhergesagte Lebensdauer zu ermitteln, muss man die »Erfolgswahrscheinlichkeit« (Probability of Success) P einer Entwicklung betrachten (Gleichung (1)), wobei t die gewünschte Betriebszeit in Stunden ist.

(1) p left parenthesis t right parenthesis space equals space e to the power of fraction numerator negative t over denominator M T B F end fraction end exponent