Während die Kalibrierung – unter der Voraussetzung, dass sich die Kameraparameter im Betrieb des Systems nicht mehr ändern – nur einmalig durchgeführt wird, muss die wesentlich rechenaufwändigere Korrespondenzfindung zwischen den Ansichten für jede Aufnahme durchgeführt werden, um die 3D-Informationen der Szene zu ermitteln. Im Falle eines Stereosystems werden dabei Korrespondenzen zwischen zwei Ansichten ermittelt. Als Vorverarbeitung findet meist eine Entzerrung der Bilder anhand der kalibrierten internen Verzerrungsparameter statt. Für einen Bildpunkt in der Referenzansicht wird anschließend der korrespondierende Punkt in der Zielansicht gesucht, der den gleichen Objektpunkt abbildet.
Setzt man das Lambertsche Beleuchtungsmodell voraus, d.h. also diffus reflektierende Oberflächen, so sollten sich lokale Umgebungen korrespondierender Bildpunkte in den Ansichten stark ähneln. Für ein gegebenes Ähnlichkeitsmaß, gängig ist beispielsweise die normalisierte Kreuzkorrelation, werden Ähnlichkeitswerte einer lokalen Umgebung eines Punktes in der Referenzansicht und lokalen Umgebungen in der Zielansicht ermittelt. Als Kandidaten in der Zielansicht kommen dabei nicht alle Punkte in Frage. Geometrisch liegen mögliche korrespondierende Punkte in den entzerrten Ansichten auf einer Geraden, der sogenannten Epipolargeraden. Nur entlang dieser Geraden muss also nach korrespondierenden Punkten gesucht werden.
Um diese Suche weiter zu beschleunigen, findet häufig eine Rektifizierung der entzerrten Eingabebilder statt. Dabei werden die Eingabebilder so transformiert, dass für alle Punkte in der Referenzansicht die Punkte der Epipolargeraden die gleiche vertikale Koordinate wie der Referenzpunkt aufweisen (vgl. Bild 2). Für einen Punkt in der Referenzansicht muss also nur entlang der gleichen Bildzeile in der Zielansicht nach korrespondierenden Punkten gesucht werden. Während die Komplexität der Suche gleich bleibt, ermöglicht die vorherige Rektifizierung eine effizientere Implementierung der Korrespondenzsuche. Sind ferner minimaler und maximaler Arbeitsabstand in der Szene bekannt, so kann die Suche entlang der Epipolargeraden weiter eingeschränkt und somit beschleunigt werden. Wurden alle möglichen Zielumgebungen entlang der Epipolargeraden mit der Referenzumgebung verglichen, so wird im Falle lokaler Stereo-Algorithmen meist die Zielumgebung mit der höchsten Ähnlichkeit als finale Korrespondenz gewählt.