Strukturelle Ähnlichkeit

Aus testwiki
Zur Navigation springen Zur Suche springen

Der Index struktureller Ähnlichkeit (englisch structural similarity, SSIM) ist eine Methode zur Schätzung der wahrgenommenen Qualität digitaler Fernseh- und Kinobilder sowie anderer Sorten digitaler Bilder und Videos.

SSIM wird zur Messung der Ähnlichkeit zwischen zwei Bildern verwendet. Der SSIM-Index ist eine Metrik mit vollständiger Referenz; in anderen Worten: Die Messung oder Schätzung der Bildqualität basiert auf einem unkomprimierten oder störungsfreien Ursprungsbild als Bezug. SSIM wurde entwickelt um eine Verbesserung gegenüber herkömmlichen Methoden wie Spitzen-Signal-Rausch-Verhältnis (englisch peak signal-to-noise ratio, PSNR) und mittlerer quadratischer Abweichung (englisch mean squared error, MSE) zu bieten, welche wenig Übereinstimmung mit menschlicher visueller Wahrnehmung bewiesen haben. Mittlerweile stehen deutlich leistungsfähigere Verfahren zur Verfügung (zum Beispiel PSNR-HVS-M[1] und VQM_VFD[2]).

Geschichte

Die erste Version von SSIM namens Universeller Qualitäts-Index (UQI) oder Wang-Bovik-Index wurde 2001 von Zhou Wang und Alan Bovik im Laboratory for Image and Video Engineering (LIVE)[3] der The University of Texas at Austin entwickelt. Er wurde anschließend in Zusammenarbeit mit Hamid Sheikh und Eero Simoncelli von der New York University zur heutigen Version von SSIM abgewandelt (heute existieren viele Variationen) und in einer gedruckten wissenschaftlichen Arbeit mit dem Titel Image quality assessment: From error visibility to structural similarity veröffentlicht, die im April 2004 in den IEEE Transactions on Image Processing erschien.[4]

Die SSIM-Veröffentlichung von 2004 wurde Google Scholar zufolge über 10.000 Mal zitiert, womit sie in der Bildverarbeitung und Videotechnik eine der meistzitierten Arbeiten aller Zeiten ist. Es wurde von der IEEE Signal Processing Society mit dem Best Paper Award[5] des Jahres 2009 bedacht.[6] Den Erfindern von SSIM wurde 2015 jeweils ein Primetime Engineering Emmy Award zuerkannt.

Nach der ersten Veröffentlichung im Jahr 2002 markierten SSIM und seine Varianten eine Zeitlang den Stand der Technik bei der automatisierten Schätzung menschlichen Qualitätsempfindens. Seit 2007 steht mit der auf Spitzen-Signal-Rausch-Verhältnis (PSNR) basierenden und um Kontrastwahrnehmungs- und Maskierungskriterien erweiterten Metrik PSNR-HVS-M ein Algorithmus zur Verfügung, der in Vergleichen mit menschlichen Probanden wesentlich besser abschneidet.[1]

Strukturelle Ähnlichkeit

Der Unterschied in Bezug auf ältere erwähnte Techniken wie MSE oder PSNR ist, dass diese Ansätze absolute Fehler schätzen, während SSIM dagegen ein wahrnehmungsbasiertes Modell darstellt, das Bildfehlerzunahme als wahrgenommene Änderung in der Strukturinformation betrachtet, wobei auch wichtige wahrnehmungspsychologische Phänomene einbezogen werden, einschließlich Termen für Helligkeitsmaskierung und Kontrastmaskierung. Strukturinformation ist das Konzept, dass die Werte besonders räumlich naher Bildpunkte starke Übereinstimmungen aufweisen. Diese Abhängigkeiten tragen wichtige Information über die Struktur des Objektes in der Bildszene. Helligkeitsmaskierung ist ein Phänomen, das Bildstörungen (in diesem Zusammenhang) in hellen Bildbereichen tendenziell weniger auffällig erscheinen lässt, während Kontrastmaskierung ein Phänomen ist, das Störungen in Bildbereichen mit nennenswerter Aktivität oder Strukturierung weniger auffällig erscheinen lässt.

Algorithmus

Der SSIM-Index wird über verschiedene Bildteile („Fenster“) berechnet. Die Differenz zwischen zwei Fenstern x und y von gleicher Größe N×N ist:

SSIM(x,y)=(2μxμy+c1)(2σxy+c2)(μx2+μy2+c1)(σx2+σy2+c2)

mit

  • μx dem Mittelwert von x
  • μy dem Mittelwert von y;
  • σx2=1N1i=1N(xiμx)2 der Varianz von x
  • σy2=1N1i=1N(yiμy)2 der Varianz von y
  • σxy=1N1i=1N(xiμx)(yiμy) der Kovarianz von x und y
  • c1=(k1L)2, c2=(k2L)2 zwei Variablen zur Stabilisierung der Division bei kleinen Nennern
  • L dem Dynamikumfang der Bildpunktwerte (typischerweise ist das 2#bits per pixel1)
  • k1=0,01 und k2=0,03

Zur Beurteilung der Bildqualität wird diese Formel gewöhnlich nur auf die Helligkeitskomponente angewendet, wobei sie auch auf Farbwerte (zum Beispiel RGB) angewendet werden kann oder Chrominanzwerte (zum Beispiel YCbCr). Der resultierende SSIM-Index ist ein dezimaler Wert zwischen 0 und 1 und der Wert 1 ist nur im Falle zweier identischer Datensätze erreichbar. Typischerweise wird er auf Fenstergrößen von 8×8 Bildpunkten berechnet. Das Fenster kann Punkt für Punkt über das Bild verschoben werden, jedoch empfehlen die Autoren nur eine Untergruppe der möglichen Fenster zu verwenden, um die Komplexität der Berechnung zu verringern.

Der SSIM-Index kann verallgemeinert werden, indem drei Komponenten für den Vergleich der Ähnlichkeit berücksichtigt werden, nämlich Leuchtdichte, Kontrast und Struktur. Für diese Komponenten können Vergleichsfunktionen mit folgenden Eigenschaften definiert werden:

Die Vergleichsfunktion für die Leuchtdichte ist

l(x,y)=2μxμy+c1μx2+μy2+c1

wobei die Konstante c1 enthalten ist, um Instabilität zu vermeiden, wenn μx2+μy2 fast 0 ist.

Die Vergleichsfunktion für den Kontrast ist

c(x,y)=2σxσy+c2σx2+σy2+c2

Ein wichtiges Merkmal dieser Funktion ist, dass sie bei gleicher Kontraständerung Δσ=σyσx bei hohem Basiskontrast σx weniger empfindlich ist als bei niedrigem Basiskontrast.

Das Skalarprodukt zwischen den Einheitsvektoren xμxσx und yμyσy ist ein einfaches und effektives Maß, um die strukturelle Ähnlichkeit zu quantifizieren. Die Korrelation zwischen xμxσx und yμyσy entspricht dem Korrelationskoeffizienten zwischen x und y. Daher wird die Vergleichsfunktion für die Struktur wie folgt definiert:

s(x,y)=σxy+c3σxσy+c3

Es ist leicht zu erkennen, dass die Vergleichsfunktionen l, c, s jeweils die drei oben aufgeführten Eigenschaften erfüllen. Indem diese drei Vergleichsfunktion kombiniert werden, ergibt sich der SSIM-Index:

SSIM(x,y)=[l(x,y)]α[c(x,y)]β[s(x,y)]γ

wobei α>0, β>0, γ>0 Parameter sind, die verwendet werden, um die relative Bedeutung der drei Komponenten anzupassen. Für α=β=γ=1 und c3=c22 ergibt sich die oben genannte spezielle Form des SSIM-Index.[4][7]

Varianten

Mehrskalen-SSIM

Eine fortgeschrittenere Form der SSIM, die Mehrskalen-SSIM[8] wird über mehrere Skalen in einem Prozess mit mehrstufiger Verringerung der Abtastung durchgeführt, der an die Mehrskalen-Verarbeitung im frühen Sehsystem erinnert. Die Leistung von sowohl SSIM als auch Mehrskalen-SSIM war seinerzeit sehr hoch in Bezug auf Übereinstimmung mit menschlicher Beurteilung (gemessen an weithin genutzten öffentlichen Bildqualitätsdatenbanken einschließlich der LIVE Image Quality Database[9] und der TID-Datenbank).

Strukturelle Unähnlichkeit

(structural dissimilarity, DSSIM) ist eine von SSIM abgeleitete (wobei die Dreiecksungleichung nicht notwendigerweise erfüllt ist) Distanzmetrik.

DSSIM(x,y)=1SSIM(x,y)2

Videoqualitätsmetriken

Die ursprüngliche Version von SSIM wurde für die Beurteilung der Qualität von Standbildern entworfen. Sie enthält keine Parameter, die sich direkt auf zeitliche Aspekte menschlicher Wahrnehmung und Beurteilung bezögen. Es wurden allerdings einige Varianten von SSIM entwickelt, die zeitliche Phänomene berücksichtigen.

Eine einfache Anwendung von SSIM zur Beurteilung von Videoqualität wäre die Berechnung des durchschnittlichen SSIM-Wertes über alle Einzelbilder der Videosequenz.

Complex Wavelet SSIM

Complex Wavelet SSIM wurde entwickelt, um Probleme der Skalierung, Translation und Rotation zu behandeln. Anstatt Bildern mit solchen Bedingungen niedrige Bewertungen zu geben, nutzt Complex Wavelet SSIM die komplexe Wavelet-Transformation und liefert daher den Bildern höhere Bewertungen. Complex Wavelet SSIM ist wie folgt definiert:

CW-SSIM(cx,cy)=(2i=1N|cx,i||cy,i|+Ki=1N|cx,i|2+i=1N|cy,i|2+K)(2|i=1Ncx,icy,i*|+K2i=1N|cx,icy,i*|+K)

wobei cx die komplexe Wavelet-Transformation für das Signal x ist und cy die komplexe Wavelet-Transformation für das Signal y ist. Außerdem ist K eine kleine positive Zahl, die aus Gründen der Funktionsstabilität verwendet wird. Idealerweise sollte K=0 sein. Wie das SSIM hat CW-SSIM einen Maximalwert von 1. Der Maximalwert von 1 zeigt an, dass die beiden Signale gleich sind, während ein Wert von 0 keine strukturelle Ähnlichkeit anzeigt.[10]

Diskussion der Leistung

Eine Veröffentlichung von Dosselmann und Yang legt nahe, dass SSIM nicht so genau ist, wie behauptet wird.[11] Sie behaupten, dass SSIM Werte liefert, die nicht besser mit menschlicher Bewertung übereinstimmen als MSE-Werte (Mittlere quadratische Abweichung).

Sie zweifeln die wahrnehmungspsychologische Grundlage von SSIM an, indem sie behaupten, dass die Formel keinerlei ausführliches Modell der visuellen Wahrnehmung enthält und dass sich SSIM möglicherweise auf wahrnehmungsferne Berechnungen stützt. Beispielsweise berechnet das menschliche Sehsystem kein Produkt zwischen den Durchschnittswerten der beiden Bilder.

Wie allerdings in der ursprünglichen Arbeit von 2004 gezeigt wurde, umfassen SSIM-Modell und -Algorithmus Modelle zentraler Elemente der Wahrnehmung von Bildstörungen, einschließlich den Mechanismen der Helligkeitsmaskierung und Kontrastmaskierung.

Einzelnachweise

  1. 1,0 1,1 Vorlage:Literatur
  2. Stephen Wolf, Margaret H. Pinson: Video Quality Model for Variable Frame Delay (VQM_VFD), U.S. Department of Commerce, National Telecommunications and Information Administration, Boulder, Colorado, USA, Technology Memo TM-11-482, September 2011.
  3. Laboratory for Image and Video Engineering.
  4. 4,0 4,1 Vorlage:Literatur
  5. Best Paper Award. Signal Processing Society
  6. Vorlage:Cite web
  7. Zhou Wang, Alan C. Bovik, Hamid R. Sheikh, Eero P. Simoncelli: Image Quality Assessment: From Error Visibility to Structural Similarity
  8. Vorlage:Literatur
  9. LIVE Image Quality Database.
  10. Zhou Wang, Eero P. Simoncelli: Translation intensive image similarity in complex wavelet domain
  11. Vorlage:Literatur