Zur Berechnung der Zuverlässigkeit (der Wahrscheinlichkeit, dass ein Bauteil nicht nach einer bestimmten Zeit ausfällt) wird folgende Formel verwendet:
Ein Beispiel: Die Wahrscheinlichkeit, dass ein Bauteil mit einer intrinsischen Fehlerrate von 10-6 Ausfällen pro Stunde nicht nach 100.000 Stunden ausfällt, beträgt 90,5%. Nach 500.000 Stunden sinkt dieser Wert auf 60,6% und nach 1 Mio. Stunden auf 36,7%.
Diese Berechnungen können einen Bezug zum reellen Einsatz darstellen. Die Ausfälle bei einer konstanten Ausfallrate ergeben sich über einen exponentiellen Faktor: Erstens, nur 37% der Bauteile in einem großen System sind entsprechend der MTBF voll funktionstüchtig. Zweitens, bei einer einzelnen Stromversorgung beträgt die Wahrscheinlichkeit, dass sie so lange zuverlässig funktioniert, wie durch die MTBF ausgewiesen, nur 37%. Drittens, mit 37% Wahrscheinlichkeit funktioniert die Einheit entsprechend der ausgewiesenen MTBF. Oder: Die Hälfte der Bauteile einer Baugruppe fällt nach dem 0,69-ten Teil der MTBF aus (Bild 2).
Die Formel und die Kurve lassen sich anpassen, um die Zuverlässigkeit eines Systems zu berechnen:
Mit λA als Summe für alle Bauteil-Ausfallraten (λA = λ1n1 + λ2n2 + … + λini).
Berechnung der Ausfallrate
Um die Ausfallraten zu berechnen, gibt es drei Methoden: Vorhersage (während der Entwicklung), Bewertung (während der Fertigung) und Beobachtung (während der Nutzungsdauer).
Die Vorhersage nutzt eine Standarddatenbank für Bauteil-Ausfallraten und die zu erwartende Lebensdauer: MIL-HDBK-217 für militärische und kommerzielle Anwendungen oder Telcordia für Telekommunikationsanwendungen. Der MIL-Ansatz erfordert viele Parameter für die verschiedenen Bauteile und umfasst Spannungs- sowie Leistungsbelastungen. Telcordia erfordert weniger Bauteilparameter und kann auch Ergebnisse aus Labortests, Burn-in- und Feldtestdaten berücksichtigen. Der MIL-Ansatz ergibt MTBF-Daten; Telcordia erzeugt FIT-Zahlen (Failures/Ausfälle pro Mrd. Stunden).
Bei der Verwendung dieser Datenbanken und Techniken werden oft verschiedene, meist falsche Annahmen gemacht, z.B. dass der Entwurf perfekt sei, die Belastungen alle bekannt seien und alle Bauteile im Nennwertbereich betrieben würden. Dabei kann ein einzelner Fehler zu einem Gesamtausfall führen, obwohl die Datenbank aktuell und gültig ist. Es ist jedoch die am wenigsten zeitaufwendige Methode, und durch konsistente Anwendung bei verschiedenen Designs kann die relative Zuverlässigkeit von Topologien und Designansätzen einfach ermittelt werden – anstelle der absoluten Zuverlässigkeit.
Die Bewertung ist die genaueste Einschätzung der Ausfallrate, erfordert aber mehr Zeit und Ressourcen. Dabei wird eine geeignete Zahl fertiger Einheiten einem beschleunigten Lebensdauertest bei erhöhter Temperatur unterzogen, mit sorgfältig kontrollierten und erhöhten Belastungsfaktoren.
Eine Methode, genannt HALT (Highly Accelerated Life Test), testet Prototypen unter so vielen Bedingungen wie möglich, inklusive Temperatur-, Eingangsspannungs-, Ausgangslastzyklen und anderen Belastungsfaktoren. HALT-Tests sollen Schwächen bei Bauteilen, Leiterplatten, Baugruppen oder Endprodukten ausfindig machen – entweder durch hohe Belastung bei wenigen Zyklen oder durch geringe Belastung bei vielen Zyklen.
Eine zweite Methode, HASS (Highly Accelerated Stress Screen), ist eine beschleunigte Technik zur Zuverlässigkeitsprüfung, um latente Mängel zu entdecken, die durch Umgebungsbelastungstests, Burn-in oder andere Testmethoden nicht offenbart werden. HASS-Tests verwenden Belastungen jenseits ursprünglicher Spezifikationen, aber immer noch innerhalb der Leistungsfähigkeit des Designs und der HALT-Bestimmungen. Die Belastungen unter HASS sind höher als bei herkömmlichen Methoden, womit sich das vorzeitige Entdecken von Fertigungsfehlern erheblich beschleunigt. Testingenieure können dann Änderungen vornehmen, die anderenfalls zu Ausfällen im Feldeinsatz führen würden.
Die Beobachtung im Feld ist ebenfalls möglich, aber schwieriger, da unmöglich alle Betriebsbedingungen einer Stromversorgung kontrolliert werden können. Eine zuverlässige Fehlerursachenanalyse wird somit erschwert.