Vor Mitte der 90er Jahre lagen fast alle Video-Aufzeichnungen im analogen Format vor. Erst danach erzeugten das Aufkommen der MPEG-2-Komprimierung, die Verbreitung von Video-Dateien im Internet und ein DTV-Standard (Digital Television) des FCC genug Aufmerksamkeit, um die Vorteile der digitalen Bildverarbeitung in die Fernsehwelt zu tragen. Zu diesen Vorteilen gegenüber "analog" gehören ein höherer Signal-Rausch-Abstand, eine bessere Ausnutzung der Bandbreite - mehrere digitale Fernsehprogramme passen in einen Kanal - und die Reduzierung des Speicherbedarfs mit Hilfe digitaler Komprimierungstechniken.
Die Digitalisierung erfordert die Abtastung und Quantisierung des analogen Video-Signals. Beim 2D-Format eines Video-Bildes erzeugt die Abtastung die Teilung des Bildbereiches in kleine Regionen, ähnlich eines Rasters. Dabei werden jedem Bereich, basierend auf der Intensität der jeweiligen Farbkomponenten, relative Amplitudenwerte zugeordnet. Zu beachten ist, dass bereits beim analogen Video-Signal eine vertikale Abtastung - diskrete Anzahl von Zeilen - sowie auch eine temporäre Abtastung der ganzen Bildfläche - diskrete Anzahl von Bildern pro Sekunde - durchgeführt wurden.
8-bit-Video-Signale sind üblich in der Unterhaltungselektronik. Für jeden Farbkanal (R, G, B oder YCbCr) entspricht ein Wert von 0 der dunkelsten (total schwarz) und ein Wert von 255 der hellsten (total weiß) Intensität. Man sollte jedoch beachten, dass die 10- und 12-bit-Quantisierung pro Farbkanal rasch in Massen-Videogeräte einzieht. Die zusätzlichen Bits ermöglichen eine höhere Genauigkeit, die Rundungsfehler verringert und bei der Reduzierung des Bildrauschens nützlich sein kann.
Das Aufkommen des digitalen Fernsehens brachte eine ausgezeichnete Gelegenheit zur Standardisierung der Schnittstellen mit sich. Als die ITU (International Telecommunication Union) zusammenkam, um Empfehlungen für Digital-Video-Standards zu definieren, konzentrierte man sich darauf, möglichst viele Gemeinsamkeiten zwischen dem nordamerikanischen (525 Zeilen, 60 Hz) und dem europäischen Format (625 Zeilen, 50 Hz) zu erreichen, damit beide mit den gleichen Codierformaten arbeiten können.
Definiert wurden zwei separate Empfehlungen – ITU-R BT.601 und ITU-R BT.656. Beide Empfehlungen definieren eine Struktur, die die Zusammenarbeit unterschiedlicher Komponenten in einem digitalen Video-System ermöglicht. Während BT.601 die Parameter für die Übertragung von digitalen Videosignalen definiert, definiert BT.656 das Interface selbst.
ITU-R BT.601 (zuvor CCIR-601)
            
                BT.601 spezifiziert Methoden zur digitalen Codierung von Video-Signalen mit dem YCbCr-Farbraum zur besseren Nutzung der Kanalbandbreite. BT.601 schlägt 4:2:2 YCbCr als ein bevorzugtes Format für den Fernsehrundfunk vor. Synchronisationssignale (HSYNC, VSYNC, FIELD) und ein Taktsignal sind ebenfalls definiert, um die Grenzen aktiver Video-Bereiche zu beschreiben (Bild 4).
Jede BT.601-Pixelkomponente (Y, Cr oder Cb) ist entweder mit 8 oder mit 10 bit quantisiert. Sowohl für das nordamerikanische als auch für das europäische Video-Signal wurden 720 aktive Pixel pro Zeile festgelegt. Die vertikale Auflösung unterscheidet sich allerdings. Nordamerika: 30 Bilder/s und 525 Zeilen -- einschließlich Vertikalaustastung; Europa 25 Bilder/s und 625 Zeilen.
BT.601 spezifiziert die Helligkeit (Y) mit einem nominalen Bereich von 16 (total schwarz) bis 235 (total weiß). Die Farbkomponenten Cb und Cr erstrecken sich von 16 bis 240. Dabei steht ein Wert von 128 für "keine Farbe". Manchmal kann aufgrund von Rauschen oder durch Rundungsfehler ein Wert außerhalb der normalen Grenzen liegen, doch niemals einen Wert von 0 oder 255 annehmen.
ITU-R BT.656 (zuvor CCIR-656)
Während BT.601 die digitale Video-Codierung beschreibt, definiert BT.656 die zur Implementierung von BT.601 erforderlichen physikalischen Schnittstellen und Datenströme. BT.601 definiert sowohl parallele wie auch serielle Modes. Die parallele Betriebsart benötigt lediglich ein 27-MHz-Taktsignal (für 30 Bilder/s mit 525 Zeilen) und acht oder zehn Datenleitungen - je nach der Anzahl von Bits/Pixel. Alle Synchronisationssignale sind in den Datenstrom eingebunden. Somit ist keine zusätzliche Hardware erforderlich.
            
                Der serielle Mode verlangt lediglich einen gemultiplexten seriellen Datenstrom mit 10 bit/Pixel über einen einzigen Kanal. Allerdings sind komplexe Synchronisation, Impulsformung und eine Rückgewinnung bzw. Aufbereitung des Taktsignals erforderlich. Die Bit-Taktrate liegt in der Nähe von 300 MHz. Dies kann die Implementierung von seriellen BT.656-Verbindungen in vielen Systemen problematisch machen. Im Folgenden wird ausschließlich der parallele Modus betrachtet.
Die Bild-Partitionierung ist in Bild 5, der Video-Datenstrom nach ITU-R BT.656 in Bild 6 - jeweils für das nordamerikanische 525/60- und das europäische 625/50-Fernsehsystem - dargestellt.
Bei BT.656 werden die Horizontal-, Vertikal- und Halbbild-Signale (H, V, F) in den Video-Datenstrom eingebettet und in einer Serie von Bytes geschickt, die ein Steuerwort bilden. Die Signale SAV (Start of Active Video) und EAV (End of Active Video) zeigen den Beginn und das Ende von Datenelementen an, die bei jeder Zeile eingelesen werden sollen.
            
                Das SAV-Signal entsteht bei einem 1-0-Übergang des Horizontalsynchronsignals (H), während das EAV-Signal einem 0-1-Übergang von H entspricht. Ein komplettes Bild besteht aus dem sichtbaren Bildbereich plus Horizontalaustastung (der Bereich zwischen einem EAV- und einem SAV-Code) und Vertikalaustastung (der Bereich mit V = 1).
Ein Video-Bild beginnt bei einem Übergang des F-Bits. Das "ungerade" 1. Halbbild ist gekennzeichnet durch einen Wert von F = 0, während F = 1 das "geradzahlige" 2. Halbbild kennzeichnet. Bei Vollbild-Datenströmen gibt es keine Unterscheidung in 1. und 2. Halbbild, beim Zeilensprungverfahren ist es jedoch erforderlich, dass jedes Halbbild separat behandelt wird.
Die SAV- und EAV-Codes sind detailliert in Bild 7 dargestellt. Zu beachten ist, dass es eine definierte Präambel von drei Bytes - 0xFF, 0x00, 0x00 für 8-bit-Videodaten oder 0x3FF, 0x000, 0x000 für 10-bit-Videodaten -, gefolgt vom XY-Statuswort gibt, welches, abgesehen von den F- (Halbbild), V- (Vertikalaustastung) und H-Bits (Horizontalaustastung), vier Schutz-Bits für Bitfehlererkennung und Korrektur enthält.
            
                Zu beachten ist, dass sich F und V nur als Bestandteil von EAV-Sequenzen - Übergänge von H = 0 auf H = 1 - ändern dürfen. Weiter ist zu beachten, dass für 10-bit-Video-Daten die zwei zusätzlichen Bits die LSBs (Least-Significant Bits) und nicht die MSBs (Most-Significant Bits) sind.
Die Bits aus Bild 7 sind wie folgt definiert:
Das Intervall der Vertikalaustastung - die Zeit, während V = 1 ist - kann genutzt werden, um andere, zusätzliche Daten wie Audio, Videotext, Untertitel für Hörgeschädigte oder sogar Daten für interaktive TV-Anwendungen zu übertragen. Bei BT.656 wird diese Funktion mit Hilfe ergänzender Datenpakete realisiert. Statt der "0xFF, 0x00, 0x00"-Präambel, die normalerweise Steuercode enthält, beginnen alle ergänzenden Datenpakete mit einer "0x00, 0xFF, 0xFF"-Präambel.
Wenn ergänzende Daten nicht übertragen werden, dann enthält der Video-Signal-Datenstrom (Cb, Y, Cr, Y, Cb, Y, ...) während horizontaler und vertikaler Austast-Intervalle folgende Sequenz: 0x80, 0x10, 0x80, 0x10, 0x80, 0x10 ... Da die Werte 0x00 und 0xFF spezielle Werte als Steuer-Präambel-Demarkatoren enthalten, sind sie als Teil des aktiven Video-Datenstroms nicht erlaubt. In 10-bit-Systemen sind die Werte 0x000 bis 0x003 und 0x3FC bis 0x3FF ebenfalls reserviert, damit es in 8-bit-Implementierungen nicht zu Problemen kommt.