Projektionsmatrix (Computer Vision)

Aus testwiki
Zur Navigation springen Zur Suche springen
Modell einer Lochkamera. Die Abbildung des 3D-Objektes kann mathematisch mit der Projektionsmatrix beschrieben werden.

Nimmt eine Kamera ein Objekt auf, so bildet sich das Objekt auf dem Kamerabild ab. Diese Abbildung (auch Projektion genannt) wird mathematisch durch die so genannte Projektionsmatrix 𝐏 beschrieben. Diese ist eine spezielle Matrix aus dem Bereich Computer Vision und beschreibt die perspektivische Abbildung eines dreidimensionalen Objektpunktes an die zweidimensionale Bildposition.

Einleitung und Anwendung

Die Projektionsmatrix beschreibt die perspektivische Abbildung eines dreidimensionalen Objektpunktes 𝐗=[XYZW] an die Bildposition 𝐱=[xyw] durch eine Kamera. Dabei gilt folgender Zusammenhang zwischen Objekt- und Bildpunkt:

[xyw]=[p11p12p13p14p21p22p23p24p31p32p33p34][XYZW]𝐱=𝐏𝐗

Die Abbildung des Objektpunktes auf die Bildebene wird hier mit den in der projektiven Geometrie benutzten homogenen Koordinaten beschrieben. Homogene Koordinaten sind gegenüber kartesischen oder affinen Koordinaten um eine Koordinate erweitert und nur bis auf einen Skalierungsfaktor eindeutig. Den zweidimensionalen kartesischen oder affinen Koordinaten x,y entsprechen die homogenen Koordinaten u,v,w=wx,wy,w. Die homogenen Koordinaten u,v,w und u/w,v/w,1=x,y,1 repräsentieren denselben Punkt. Entsprechendes gilt für den dreidimensionalen Raum. Die Projektionsmatrix führt somit eine Transformation der projektiven Räume 3 in 2 durch. Die Elemente der Projektionsmatrix hängen dabei von den Orientierungsparametern der Kamera ab. Diese sind im Einzelnen der innere Aufbau der Kamera („innere Orientierung“) und die Lage der Kamera im Raum sowie die Blickrichtung der Kamera („äußere Orientierung“).

Die innere Orientierung 𝐊 der Kamera setzt sich aus folgenden Elementen zusammen:

  1. Der Kammerkonstante c als Abstand zwischen Bildebene und (bildseitigem) Projektionszentrum der Kamera.
  2. Der Anzahl der Bildpunkte pro Millimeter in Richtung der x-Achse (kx) und y-Achse (ky).
  3. Der Position des Bildhauptpunktes h0=(x0,y0) als der Durchstoßpunkt der optischen Achse durch die Bildebene und
  4. dem Scherungswinkel Θ zwischen den Bildachsen.

Zusammengefasst wird das in der Kalibrierungsmatrix 𝐊:

𝐊=[ckxckxcot(Θ)x00cky/sin(Θ)y0001]

Im Weiteren wird die Position einer Kamera bezüglich des Weltkoordinatensystems mit 𝐂, die Aufnahmerichtung mit 𝐑 bezeichnet. Letzteres ist eine 3×3-Rotationsmatrix. Für 𝐏 ergibt sich damit:

𝐏=𝐊𝐑[𝐈𝐂]

(𝐈 ist die 3×3-Einheitsmatrix). Da [𝐈𝐂] eine 3×4 große Matrix ist, ist 𝐏 ebenfalls 3×4 groß. 𝐏 ist somit eindeutig bestimmt.

Der Vorteil der Projektionsmatrix gegenüber anderen Darstellungsformen wie der Kollinearitätsgleichung ist ihre kompakte Darstellung in einer einzigen Matrix. Dadurch entfällt die explizite Angabe der einzelnen Orientierungsparameter. Auch etwaige Unklarheiten über die Reihenfolge der Transformationsschritte treten nicht auf. Sie wird überall angewendet, wo entsprechende Abbildungen durch eine Kamera durchgeführt werden. Dies ist zum Beispiel auf den Gebieten der Photogrammetrie bei der Bestimmung von 3D-Koordinaten und der Kalibrierung, Computer Vision und in der projektiven Geometrie der Fall. Meist wird von den aufgezeichneten Bildpunkten auf die Koordinaten der beobachteten Objektpunkte rückgerechnet.

Geometrische Deutung der Projektionsmatrix

Die Elemente von 𝐏 sind geometrisch deutbar. Die Zeilen pi der Matrix 𝐏 sind 4-Vektoren und können als Ebenen im projektiven Raum 3 angesehen werden. Diese 3 Ebenen schneiden sich im Projektionszentrum 𝐂. Die Spalten pi sind 3-Vektoren. Die ersten drei Spalten p1,p2,p3 sind die Abbildungen des Weltkoordinatensystems und entsprechen den Fluchtpunkten der X-, Y- beziehungsweise Z-Achse. Die letzte Spalte p4 ist die Abbildung des Ursprungs des Weltkoordinatensystems.

Da die Projektionsmatrix auf Grund der homogenen Darstellung nur bis auf einen Skalierungsfaktor λ bekannt ist, sollte sie dafür normiert werden. Dazu ist der Betrag und das Vorzeichen des Normierungsfaktors zu bestimmen. Für den Betrag wird die erste 3×3-Teilmatrix 𝐌 von 𝐏=[𝐌𝐭] betrachtet. Wenn 𝐦3 die dritte Zeile von 𝐌 ist, so muss die gesamte Projektionsmatrix durch die Norm dieses Vektors dividiert werden. Das korrekte Vorzeichen ergibt sich aus der Bedingung det(𝐌)>0. Ist die Determinante kleiner 0, muss das Vorzeichen aller Komponenten von 𝐏 invertiert werden.

Zerlegung der Projektionsmatrix

Es ist möglich, aus 𝐏 wiederum die einzelnen Orientierungsparameter der Kamera zu berechnen. Für das Projektionszentrum 𝐂 gilt der Zusammenhang 𝐏𝐂=0. Diese Eigenschaft kann als lineares Gleichungssystem aufgefasst und mittels Singulärwertzerlegung gelöst werden. Dabei ist zu beachten, dass die Rechteckmatrix 𝐏 um eine Zeile mit Nullen ergänzt werden muss.

Die Rotationsmatrix 𝐑 und die Kalibrierungsmatrix 𝐊 extrahiert eine QR-Zerlegung aus der ersten 3×3 Teilmatrix 𝐌 von 𝐏:

𝐌=𝐊𝐑=[k11k21k310k22k3200k33][r11r21r31r21r22r32r31r23r33]

𝐊 ist hier die Kalibrierungmatrix, 𝐑 enthält die Elemente der Rotationsmatrix. Somit sind alle Parameter der inneren und äußeren Orientierung bestimmt.

Berechnung der Projektionsmatrix aus Punktkorrespondenzen

Die Projektionsmatrix lässt sich – wie im Abschnitt Mathematische Darstellung gezeigt – direkt aus den Orientierungsparametern der Kamera berechnen. Da die Berechnung der Projektionsmatrix meist vor einer Bestimmung der Kameraparameter durchgeführt wird, tritt dieser Fall selten auf. Im Folgenden wird erläutert, wie 𝐏 nur mit Hilfe von bekannten Objektpunkten und deren Abbildungen berechnet werden kann.

Sind eine Menge Punktkorrespondenzen Xixi gegeben, lässt sich 𝐏 aus diesen Punktepaaren berechnen. Ziel ist es, eine Matrix 𝐏 zu bestimmen, so dass 𝐱i=𝐏𝐗i. Dazu wird die Formel mittels des Kreuzproduktes nach 𝐱i×𝐏𝐗i=𝟎 umgestellt. Wenn 𝐱i=[xiyiwi], ergibt sich nach Umstellung der Gleichung folgender Zusammenhang:

[𝟎Twi𝐗iyi𝐗iwi𝐗i𝟎Txi𝐗iyi𝐗ixi𝐗i𝟎T](𝐏1T𝐏2T𝐏3T)=𝟎

mit 𝐏i der i-ten Zeile von 𝐏.

Da diese drei Gleichungen linear abhängig sind, werden nur die beiden ersten benutzt. Eine Punktkorrespondenz liefert somit zwei Gleichungen. Von n Punktkorrespondenzen erhält man eine 2n×12 große Matrix 𝐀. Die Projektionsmatrix berechnet sich aus 𝐀𝐩=0, wobei 𝐩 der Vektor mit den Elementen von 𝐏 ist.

Minimale Lösung

Da die Matrix 𝐏 zwölf Elemente hat und vom Rang 11 ist, reichen elf Gleichungen zur Lösung des Gleichungssystems. Da jede Punktkorrespondenz zwei Gleichungen liefert, reichen fünf Punktkorrespondenzen und Kenntnis der x- oder y-Koordinate der sechsten Korrespondenz. 𝐀 ist dann eine 11×12 große Matrix, deren rechter Nullraum die Lösung für 𝐏 enthält.

Überbestimmte Lösung

Da die Punktkorrespondenzen meist Fehler enthalten, existiert keine exakte Lösung für 𝐀𝐩=0. Daher muss eine Lösung durch Minimierung eines algebraischen oder geometrischen Fehlermaßes bestimmt werden.

Algebraisches Fehlermaß

Im Falle eines algebraischen Fehlermaßes besteht der Ansatz darin, ||𝐀𝐩|| mit einer Nebenbeschränkung zu minimieren. Diese Nebenbeschränkungen können sein:

  1. ||𝐩||=1
  2. ||𝐩˙3||=1, wobei ||𝐩˙3|| die ersten drei Elemente der letzten Zeile von 𝐏 enthält.

In beiden Fällen wird der Fehlervektor ||𝐀𝐩|| als algebraischer Fehler bezeichnet. Dieses Verfahren wurde von Ivan Sutherland 1963 im Rahmen seiner Dissertation zu Sketchpad vorgestellt.[1]

Geometrisches Fehlermaß

Datei:Passpunktfeld.png
Passpunktfeld mit Marken

Sind sehr genau vermessene Weltkoordinaten 𝐗𝐢 wie bei der Benutzung eines ausgemessenen Passpunktfeldes vorhanden, kann der geometrische Fehler d im Bild definiert werden:

d=id(𝐱i,𝐱^i)2

Dabei sind 𝐱i die gemessenen Bildpunkte und 𝐱^i der Punkt 𝐏𝐗i. Wenn die Fehler normalverteilt sind, dann ist die Lösung

minpid(𝐱i,𝐱^i)2

die Maximum-Likelihood-Schätzung von 𝐏. Zur Lösung werden iterative Techniken wie der Levenberg-Marquardt-Algorithmus verwendet.[2]

Vorgehen in der Praxis

Voraussetzung für die Berechnung von 𝐏 ist, dass mehr als sechs Punktkorrespondenzen vorhanden sind. Ziel ist es dann, die Maximum-Likelihood-Schätzung von 𝐏 zu bestimmen. Da die Maximum-Likelihood-Methode gute Startwerte für die Minimierung benötigt, wird davor eine Lösung von 𝐏 mittels des algebraischen Fehlermaßes bestimmt. Zusätzlich werden die Eingangsdaten normalisiert. Dabei werden alle Bildpunkte so verschoben, dass ihr Schwerpunkt im Ursprung des Koordinatensystems liegt. Danach werden sie so skaliert, dass der durchschnittliche Abstand zum Ursprung 2 beträgt. Die Objektpunkte werden auch in den Ursprung verschoben und so skaliert, dass der durchschnittliche Abstand zum Ursprung 3 ist. Diese Vorgehensweise führt zu numerisch stabileren Ergebnissen. Die jeweiligen Transformationen 𝐓 der Bildpunkte und 𝐔 der Objektpunkte müssen nach Berechnung von 𝐏 rückgängig gemacht werden.

Verzeichnungskorrektur

Bevor man mit der eigentlichen Bestimmung der Projektionsmatrix loslegen kann, muss man – entsprechend den Genauigkeitsanforderungen – vorhandene Verzeichnung im Bild vorher korrigieren. Die Verzeichnungsparameter müssen zuvor durch eine Kamerakalibrierung bestimmt worden sein. Damit kann dann eine geeignete Verzeichnungskorrektur durchgeführt werden. Das Bild kann danach als verzeichnungsfrei angesehen werden, d. h., die Bildpunkte stimmen mit den geraden Abbildungsstrahlen – entsprechend dem Lochkameramodell – überein.

Oft ist die Bestimmung der Projektionsmatrix selbst Teil einer Kamerakalibrierung. Dann ist eine mehrstufige Vorgehensweise notwendig. Dabei werden in einem ersten Schritt so viele Parameter wie möglich mittels linearer kleinste Quadrate Ausgleichung bestimmt. Anschließend findet eine iterative Optimierung statt unter Berücksichtigung aller Modellparameter inklusive notwendiger Verzeichnungsparameter.[3]

Einzelnachweise

  1. Vorlage:Literatur
  2. Chester C. Slama (Hrsg.): Manual of Photogrammetry. 4th edition. American Society of Photogrammetry, Falls Church VA 1980, ISBN 0-937294-01-2.
  3. Vorlage:Internetquelle

Literatur