Mit Sicherheit erkannt

Intelligente Video-Analyse bei Überwachungsanwendungen

17. Mai 2010, 11:51 Uhr | Von Dr. Cheng Peng
Diesen Artikel anhören

Fortsetzung des Artikels von Teil 1

Nicht-adaptive und adaptive Erkennungsverfahren

Nicht-adaptive Erkennungsverfahren

Im einfachsten Fall werden beim nichtadaptiven Verfahren die einzelnen Pixel des vorherigen Frames von den entsprechenden Pixeln im aktuellen Frame subtrahiert, um so die absolute Differenz zu ermitteln. Diese wird anschließend mit einem vorgegebenen Schwellenwert verglichen. Der Schwellenwert bezeichnet das „Nullniveau“ nach Herausrechnen des Rauschens der Szene bzw. des Bildsensors.

Bild 1. Vordergrund-/Hintergrunderkennung anhand dreier Frames.
Bild 1. Vordergrund-/Hintergrunderkennung anhand dreier Frames.
© Texas Instruments

Je nachdem, ob die absolute Differenz über dem Schwellenwert liegt oder nicht, wird das entsprechende Pixel dem Bildvordergrund oder dem Hintergrund zugeordnet. Die Gesamtheit der Vordergrund-Pixel in den beiden Frames zeigt die Veränderung des Vordergrundobjekts an (Bild 1). In diesem Fall wurde der Hintergrund ausmaskiert; die verbleibenden Vordergrund- Pixel zeigen ein fahrendes Auto und das zugehörige „Geisterbild“ aus dem vorherigen Frame. Durch die vorhandenen Geisterbilder reichen für eine einfache Bewegungserkennung zwei Frames. Eine Objektverfolgung und -erkennung ist somit nicht notwendig.

Neben den Geisterbildern kann es im Vordergrund jedoch noch verrauschte Pixel geben, die falsch identifiziert werden. Durch eine etwas aufwendigere Berechnung lässt sich die Erkennung des Vordergrundbilds verbessern. Dabei wird im Algorithmus ein zusätzlicher Frame herangezogen. Bei Verwendung von drei Frames wird zunächst die absolute Differenz in den Einzelpixeln zwischen dem vorherigen und dem aktuellen Frame ermittelt (Bild 1a). Anschließend erfolgt dieselbe Berechnung für den aktuellen und den nachfolgenden Frame, bei dem sich die Position des Geisterobjekts geändert hat (Bild 1b). Ist die absolute Differenz in beiden Fällen höher als der Schwellenwert, gehört das jeweilige Pixel zum Vordergrund, anderenfalls gehört es zum Hintergrund. Nach Verschwinden der Geisterbilder in 1a und 1b bleibt als Vordergrund das Bild 1c übrig. In einer kontrollierten Umgebung ist mit drei Frames eine kurzzeitige Objektverfolgung bzw. -erkennung per Video möglich.

Dennoch eignen sich nicht-adaptive Verfahren nur für Anwendungsfälle, bei denen eine intensive Überwachung der Bilder stattfindet und keine langen Zeiträume abgedeckt werden müssen. Bei einer großen Anzahl von „Szenenwechseln“ stoßen diese Verfahren schnell an ihre Grenzen. Kommt es zu Änderungen der Szene oder des Hintergrunds, muss das System manuell neu initialisiert werden; anderenfalls steigt die Fehlerquote mit der Zeit immer mehr, so dass die Ergebnisse unzuverlässig werden.

Adaptive Erkennungsverfahren

Aufgrund der Beschränkungen nichtadaptiver Verfahren wird in VCA-Anwendungen eine adaptive Vordergrund-/ Hintergrunderkennung implementiert. Adaptive Verfahren verwenden ein Hintergrundmodell, das durch Einblenden von Daten aus den einzelnen Video-Frames laufend aktualisiert wird. Gegenüber nichtadaptiven Verfahren ist hier der Verarbeitungsaufwand deutlich höher, und die Komplexität des Hintergrundmodells kann variieren.

Bei einem einfachen adaptiven Verfahren subtrahiert der Algorithmus das Hintergrundmodell Pixel für Pixel vom aktuellen Frame (im Gegensatz zur Subtraktion bei aufeinanderfolgenden Frames durch nicht-adaptive Algorithmen) und ermittelt so den Vordergrund. Mithilfe der zurückgemeldeten Ergebnisse kann das Modell an etwaige Hintergrundwechsel angepasst werden, ohne neu initialisiert werden zu müssen. Dieses Verfahren leistet sehr gute Dienste in Video-Überwachungsszenarien, bei denen Objekte ständig in Bewegung sind oder bei denen über weite Strecken ein Hintergrundrauschen vorhanden ist.

Für eine komplexere Vordergrund-/ Hintergrunderkennung bedient man sich eines statistischen Hintergrundmodells. Hierbei werden die einzelnen Hintergrund-Pixel in einem Video- Frame als Zufallsvariablen modelliert, die einer Gaußschen Verteilung gehorchen. Die mittlere Abweichung und die Standardabweichung jedes einzelnen Pixels werden nach und nach aus den Video-Daten der einzelnen Frames errechnet.

Beispielhaft lässt sich dies an einer Szene mit einer Flusslandschaft erläutern: Infolge der Lichtspiegelungen auf der Wasseroberfläche weisen die „Fluss-Pixel“ deutlich stärkere Abweichungen auf als das vergleichsweise ruhige Ufer. Zum Ermitteln von Vordergrund- und Hintergrund-Pixeln im aktuellen Frame werden die Pixel mit dem Schwellenwert verglichen, der sich aus der Standardabweichung der entsprechenden Pixel im Hintergrundmodell ergibt. Anders ausgedrückt: Damit ein Pixel als Vordergrundelement identifiziert wird, muss es eine stärkere Differenz zum entsprechenden Hintergrund- Pixel aufweisen, wenn letzteres stark variiert (der Fluss), als wenn das Hintergrund-Pixel weitgehend unverändert bleibt (das Ufer).

Dieses Verfahren erweist sich als sehr effektiv, wenn in unterschiedlichen Bereichen einer Szene jeweils andere Lichtverhältnisse oder Rauschpegel vorhanden sind. Würde man mit einem einheitlichen Schwellenwert arbeiten, der einen hohen Rauschpegel berücksichtigt (Fluss), würden Objekte nicht mehr erkannt werden, wenn sie Bereiche mit einem geringeren Rauschen (Ufer) betreten.


  1. Intelligente Video-Analyse bei Überwachungsanwendungen
  2. Nicht-adaptive und adaptive Erkennungsverfahren
  3. Objektverfolgung/ -erkennung
  4. Literatur und Autor

Lesen Sie mehr zum Thema


Jetzt kostenfreie Newsletter bestellen!

Weitere Artikel zu Texas Instruments Deutschland GmbH

Weitere Artikel zu DSPs