Schwerpunkte

CUI / Stromversorgung

Zuverlässigkeit von Netzteilen (Teil 1)

15. Oktober 2020, 10:58 Uhr   |  Ron Stull, CUI

Zuverlässigkeit von Netzteilen (Teil 1)
© tashatuvango – stock.adobe.com

Eine zentrale Eigenschaft einer Stromversorgung ist ihre Zuverlässigkeit. Andernfalls ist jedes versorgte System akut gefährdet. Aber was bedeutet Zuverlässigkeit? Wie kann man sie bestimmen? Was bedeutet das für den Anwender? In diesem ersten Teil einer zweiteiligen Serie geht es um die Kennzahlen.

Netzteile stehen meist nicht im Rampenlicht und erhalten nicht die gleich Aufmerksamkeit wie Prozessoren und Displays, aber für den Betrieb von Geräten und Systemen sie sind genauso wichtig. Eine fehlerbehaftete oder zu schwach ausgelegte Versorgung kann ein System zum Stillstand bringen oder sporadische Fehler verursachen, die das Endprodukt und den Ruf des OEM gefährden.

Aber nicht nur der Ausfall der Stromversorgung gibt Anlass zur Sorge – ein Netzteil, das schlecht konzipiert oder unsachgemäß erstellt ist, kann sich vorzeitig verschlechtern und unerklärliche oder falsch diagnostizierte Probleme verursachen. Kurz gesagt: Zuverlässigkeit ist unerlässlich.

Dieser zweiteilige Beitrag behandelt Aspekte rund um die Zuverlässigkeit von Netzteilen und Stromversorgungen, wie sie beurteilt wird und wie sie sich verbessern lässt. Im ersten Teil geht es um die Metriken für Zuverlässigkeit, im zweiten Teil in einer der nächsten Ausgaben geht es um Belastungen, die die Zuverlässigkeit eines Netzteils beeinflussen, sowie Maßnahmen, wie sich deren Zuverlässigkeit durch das Design verbessern lassen.

Reliability, Power Supplies, CUI, MTBF, Bathtub Curve
© CUI

Bild 1: Die Ausfallrate λ über der Zeit mit den drei Lebenszyklusphasen (frühe Ausfälle, Nutzungsdauer und Alterung) hat meist das Aussehen einer Badewanne (hellblaue Linie).

MTBF, Ausfallrate und Lebensdauer

Um die Zuverlässigkeit zu verbessern, ist es unerlässlich, die jeweiligen Definitionen und Begriffe genau zu verstehen. Dabei ist zu beachten, dass die Zuverlässigkeit R(t) und die Ausfallrate λ nicht dasselbe sind. Zuverlässigkeit ist die Wahrscheinlichkeit, dass das Netzteil unter bestimmten Bedingungen für einen bestimmten Zeitraum einwandfrei funktioniert. Die Ausfallrate ist der Prozentsatz der Geräte, die in einer bestimmten Zeitspanne ausfallen. Diese folgt fast immer der sogenannten Badewannenkurve (Observed Failure Rate in Bild 1).

Zwei weitere nützliche Werte sind MTBF (Mean Time Between Failures, mittlere Zeit zwischen Ausfällen) und MTTF (Mean Time To Failure, mittlere Zeit bis zum Ausfall) und ist definiert als der Kehrwert der Ausfallrate λ. Die MTBF eignet sich als Kennzahl für Geräte, die repariert und danach wieder in Betrieb genommen werden. Auch wenn viele das annehmen, garantiert die MTBF keine Mindestzeit zwischen Ausfällen, sondern ist nur ein statistischer Mittelwert. MTTF ist technisch-mathematisch gesehen korrekter, aber die beiden Begriffe sind (bis auf wenige Situationen) gleichwertig – MTBF ist allerdings weiter verbreitet.

Es gibt noch einen weiteren Begriff in Bezug auf die Zuverlässigkeit, der zu klären ist: die Lebensdauer (Life Time). Dies ist die Zeitspanne, die das Netzteil in der vorgesehenen Anwendung einwandfrei funktionieren muss. Eine lange Lebensdauer korreliert jedoch nicht notwendigerweise mit einer hohen MTBF. Einige Anwendungen erfordern eine hohe MTBF, haben aber nur eine kurze Lebensdauer. Raketenstufen sind ein klassisches Beispiel dafür: Ihre MTBF ist extrem hoch, um sicherzustellen, dass die wertvolle Fracht sicher ins All gelangt, ihre Lebensdauer beträgt manchmal jedoch nur wenigen Minuten.

Die Badewannenkurve in Bild 1 veranschaulicht auch die drei wesentlichen Ausfallphasen. In der ersten Phase, die meist im niedrigen zweistelligen Betriebsstundenbereich liegt, zeigt sich eine höhere Ausfallrate (Early »Infant Mortality« Failure). Diese ist auf schlechte Verarbeitung und minderwertige Bauteile zurückzuführen. Durch Burn-in-Tests lassen sich fehlerhafte Geräte vor der Auslieferung aussortieren. Die zweite und längste Phase ist die normale Nutzungsdauer, während der das Netzteil ordnungsgemäß funktioniert (Constant (random) Failures). Während dieser Phase ist die Ausfallrate gering und weitgehend konstant. Die letzte Phase ist die Verschleiß- oder Alterungsphase, in der das Netzteil ausfällt, wenn die verbauten Bauteile das Ende ihrer Lebensdauer erreichen (Wear Out Failures). Übliche Verschleißmechanismen sind schlecht laufende Lüfterlager, das Austrocknen der Elektrolytkondensatoren und Spannungsrisse, die sich nach Tausenden von Wärmezyklen entwickeln.

Zuverlässigkeit berechnen

Es ist unmöglich, genau oder sicher vorherzusagen, wie lange ein bestimmtes Netzteil in Betrieb sein wird oder nach wie vielen Stunden es ausfällt. Die erwartete Lebensdauer oder Ausfallwahrscheinlichkeit lässt sich jedoch mit hoher Sicherheit mithilfe von Wahrscheinlichkeitsberechnungen bestimmen – eine Standardpraxis für elektronische und mechanische Bauteile und Systeme.

Die Zuverlässigkeit eines Netzteils hängt von mehreren Faktoren ab: einem soliden Design mit angemessenen Margen, qualitativ hochwertigen Komponenten mit geeigneten Nennwerten, thermischen Überlegungen mit dem erforderlichen Derating und ein konsistenter Fertigungsprozess. Zur Berechnung der Zuverlässigkeit – also der Wahrscheinlichkeit, dass ein Bauteil nach einer bestimmten Zeit nicht ausfällt – wird die folgende Formel verwendet:

R(t) = e–λ∙t

So beträgt die Wahrscheinlichkeit, dass ein Bauteil mit einer intrinsischen Ausfallrate von 10–6 Ausfällen pro Stunde nach 100.000 Betriebsstunden nicht ausfällt, noch 90,5 Prozent, nach 500.000 Stunden sinkt diese auf 60,6 Prozent und nach einer Million Stunden auf 36,7 Prozent.

Eine ähnliche Formel wird verwendet, um die Zuverlässigkeit eines Systems zu berechnen:

R(t) = e–λ(A)∙t

Dabei ist λ(A) die Summe aller Bauteil-Ausfallraten (λ(A) =λ1n1 + λ2n2 +...+ λini).

Reliability, Power Supplies, CUI, Failure Rate
© CUI

Bild 2: Wahrscheinlichkeit R(t) über die Zeit, dass ein Netzteil noch funktionsfähig ist. Gut zu sehen ist, dass nach Ablauf der MTTF statistisch gesehen nur noch 37 Prozent aller Geräte funktionstüchtig sind.

Bei den Berechnungen ergeben sich interessante Details. Erstens sind die Ausfälle bei einer konstanten Ausfallrate durch einen exponentiellen Faktor gekennzeichnet, sodass nur 37 Prozent der Geräte einer großen Grundgesamtheit an Geräten so lange wie der MTBF-Wert halten. Zweitens beträgt bei einem einzelnen Netzteil die Wahrscheinlichkeit, dass es seinen MTBF-Wert erreicht, nur 37 Prozent (Bild 2). Und drittens liegt die Wahrscheinlichkeit, dass das Netzteil so lange hält wie sein MTBF-Wert, bei einem Vertrauensniveau von 37 Prozent. Darüber hinaus wird die Hälfte der Geräte einer Gruppe bereits nach 69 Prozent der MTTF ausgefallen sein.

Ausfallrate bestimmen

Es ist offensichtlich nicht praxisgerecht, Ausfallraten dadurch zu berechnen, indem man viele Geräte baut und unter den erwarteten Betriebsbedingungen viele Stunden lang betreibt. Stattdessen können drei Methoden zum Einsatz kommen:

  • Vorhersage (während des Designs),
  • Bewertung (während der Fertigung) und
  • Beobachtung (während des Betriebs).

Keine dieser Methoden ist von Natur aus besser als die andere, jede hat ihre Stärken und Schwächen. Darauf gehen wir nun genauer ein.

Die Prognose verwendet eine von mehreren Standard-Datenbanken für die Ausfallrate von Bauteilen und deren erwartete Lebensdauer, darunter MIL-HDBK-217 (US Navy), HRD5 (British Telecom) und Telcordia (früher Bellcore, die umfangreiche Datenbank aus der Erfahrung des ehemaligen Kommunikationsdienstleisters Bell). Es kommt darauf an, dass die Vorhersagemethode und die für aussagekräftige Ergebnisse verwendete Datenbank konsistent sind. Das MIL-HDBK-217 konzentriert sich auf militärische und kommerzielle Anwendungen, Telcordia auf telekommunikationsorientierte Designs und Anwendungen. Der MIL-Ansatz verwendet viele Parameter für die verschiedenen Bauteile und umfasst auch Spannungs- und Strombelastungen, während Telcordia weniger Bauteilparameter benötigt und auch Testergebnisse aus dem Labor, Burn-in-Daten und Daten aus Feldtests berücksichtigt. Am Ende liefert der MIL-Ansatz eine MTBF, Telcordia hingegen FIT-Werte (Failure In Time), wobei 1 FIT einem Ausfall pro Milliarde Bauteilstunden entspricht (einmal in etwa 114.155 Jahren) und statistisch aus den Ergebnissen beschleunigter Testverfahren extrapoliert wird.

Diese Datenbanken und Techniken zu verwenden garantiert jedoch keine absolute Genauigkeit, da sie auf Annahmen beruht, die bestenfalls »ein bisschen daneben liegen«. Es wird davon ausgegangen, dass das Design perfekt ist, die Belastungen alle bekannt sind, alles innerhalb der Nennwerte betrieben wird, jeder einzelne Fehler einen Totalausfall verursacht und die Datenbank aktuell und gültig ist. In Wirklichkeit sind die Datenbanken jedoch ziemlich alt und enthalten keine Daten für neuere Bauteile.

Es gibt zwei Möglichkeiten, die Vorhersage zu verwenden. Die verschiedenen Belastungen jedes Bauteils lassen sich betrachten und wie sich diese auf die erwartete Leistungsfähigkeit und Lebensdauer des Bauteils auswirken. Dieser Ansatz ist jedoch sehr zeitaufwendig, weshalb stattdessen oft die einfachere Methode der Bauteilzählung verwendet wird. Dieser Ansatz gruppiert ähnliche Bauteile und mittelt dann die Faktoren für diese Gruppe.

Netzteil-Entwickler müssen bei der Verwendung dieser beiden Ansätze vorsichtig sein, da sie unterschiedliche Ergebnisse erzielen. Auch hier ist es sehr wichtig, dass der Ansatz und die unterstützende Datenbank konsistent sind – auch für die Bauteilzählung, da einige Teile in einer Datenbank im Vergleich zu einer anderen vorteilhafter erscheinen können. Einige Anbieter kombinieren die Zahlen, um ein besseres Ergebnis zu erzielen, das sie dann veröffentlichen können. Daher sollten Nutzer genau nachfragen, wie die angegebenen Zahlen zustande gekommen sind.

Warum das Ganze? Durch die konsistente Anwendung auf verschiedene Designs lässt sich die relative Zuverlässigkeit ihrer Topologien und Ansätze und nicht die absolute Zuverlässigkeit angeben.

Bewertung und Beobachtung

Die Bewertung (Assessment) ist die genaueste Methode zur Vorhersage der Ausfallrate, erfordert jedoch Engagement und Zeit. Dabei wird eine geeignete Anzahl von Endgeräten einem beschleunigten Lebensdauertest bei erhöhter Temperatur mit sorgfältig kontrollierten und erhöhten Belastungsfaktoren unterzogen. Natürlich besteht das Risiko, dass einige dieser zusätzlichen Belastungen zu vorzeitigen Ausfällen führen und dies daher möglicherweise kein faires Verfahren für das Netzteil ist. Der Test muss mit berechneten, nachgewiesenen Auswirkungen der zusätzlichen Belastungen durchgeführt werden.

Beim HALT-Ansatz (Highly Accelerated Life Test) wird eine Reihe von Prototypen unter möglichst vielen Bedingungen getestet, wobei Temperatur, Eingangsspannung, Ausgangslast und andere Einflussfaktoren zyklisch berücksichtigt werden. HALT basiert auf einem einfachen Grundprinzip: Ermüdung eines Bauteils, einer Leiterplatte, einer Baugruppe oder eines Endprodukts. Man kann das Bauteil bzw. das Endprodukt entweder für viele Zyklen auf einem niedrigeren Niveau belasten oder für eine geringere Anzahl von Zyklen ein höheres Maß an Belastungen anwenden.

Der HASS-Test (Highly Accelerated Stress Screening) ist eine beschleunigte Zuverlässigkeits-Screening-Technik, die latente Fehler aufdecken kann, die durch Umgebungsbelastungs-Screening, Burn-in oder andere Testmethoden nicht erkannt wurden. HASS verwendet Belastungen, die über die ursprünglichen Spezifikationen hinausgehen – aber immer noch innerhalb der von HALT festgelegten Möglichkeiten des Designs liegen.

Die Kombination variabler thermischer Belastungen und gleichzeitiger mechanischer Vibration in Verbindung mit produktspezifischen Belastungen findet jene Defekte und Randprodukte, die als frühes Out-of-Box-Versagen angesehen wurden. Die Belastungen unter HASS sind strenger als bei herkömmlichen Ansätzen, sodass sich mit solchen Tests Probleme im Fertigungsprozess früher identifizieren lassen. Qualitätsingenieure können dann die Abweichungen korrigieren, die sonst zu Ausfällen im Feld führen würden, und die Zahl dieser »Randprodukte« stark reduzieren.

Eine vollständige Bewertung der Zuverlässigkeit auf der Grundlage von Tests erfordert solide Kenntnisse der Statistiken und der damit verbundenen Analysetechniken, einschließlich der Bewertung des Vertrauensniveaus und der multivariablen Weibull-Analyse. Das bloße Wissen, dass ein Netzteil nach 50.000 Stunden in einer Gruppe von 50 getesteten Geräten ausfällt, ist nur der erste Schritt bei der Analyse der Daten.

Eine Beobachtung vor Ort ist ebenfalls möglich, jedoch schwieriger, da es unmöglich ist, alle Bedingungen, denen ein Netzteil ausgesetzt war, zu kontrollieren. Eine zuverlässige Ursachenanalyse ist daher schwieriger durchzuführen.

Im nächsten Teil dieser Serie geht es um Belastungen, die die Zuverlässigkeit eines Netzteils beeinflussen und Maßnahmen, wie sich deren Zuverlässigkeit durch das Design verbessern lassen.

Auf Facebook teilenAuf Twitter teilenAuf Linkedin teilenVia Mail teilen

Das könnte Sie auch interessieren

Fit & Forget
Keine Glückssache
Jenseits aller Marketing-Versprechen

Verwandte Artikel

CUI Inc.