Strukturelle Ähnlichkeit

Der Index struktureller Ähnlichkeit (englisch structural similarity, SSIM) ist eine Methode zur Schätzung der wahrgenommenen Qualität digitaler Fernseh- und Kinobilder sowie anderer Sorten digitaler Bilder und Videos.

SSIM wird zur Messung der Ähnlichkeit zwischen zwei Bildern verwendet. Der SSIM-Index ist eine Metrik mit vollständiger Referenz; in anderen Worten: Die Messung oder Schätzung der Bildqualität basiert auf einem unkomprimierten oder störungsfreien Ursprungsbild als Bezug. SSIM wurde entwickelt um eine Verbesserung gegenüber herkömmlichen Methoden wie Spitzen-Signal-Rausch-Verhältnis (englisch peak signal-to-noise ratio, PSNR) und mittlerer quadratischer Abweichung (englisch mean squared error, MSE) zu bieten, welche wenig Übereinstimmung mit menschlicher visueller Wahrnehmung bewiesen haben. Mittlerweile stehen deutlich leistungsfähigere Verfahren zur Verfügung (zum Beispiel PSNR-HVS-M^[1] und VQM_VFD^[2]).

Geschichte Bearbeiten

Die erste Version von SSIM namens Universeller Qualitäts-Index (UQI) oder Wang-Bovik-Index wurde 2001 von Zhou Wang und Alan Bovik im Laboratory for Image and Video Engineering (LIVE)^[3] der The University of Texas at Austin entwickelt. Er wurde anschließend in Zusammenarbeit mit Hamid Sheikh und Eero Simoncelli von der New York University zur heutigen Version von SSIM abgewandelt (heute existieren viele Variationen) und in einer gedruckten wissenschaftlichen Arbeit mit dem Titel Image quality assessment: From error visibility to structural similarity veröffentlicht, die im April 2004 in den IEEE Transactions on Image Processing erschien.^[4]

Die SSIM-Veröffentlichung von 2004 wurde Google Scholar zufolge über 10.000 Mal zitiert, womit sie in der Bildverarbeitung und Videotechnik eine der meistzitierten Arbeiten aller Zeiten ist. Es wurde von der IEEE Signal Processing Society mit dem Best Paper Award^[5] des Jahres 2009 bedacht.^[6] Den Erfindern von SSIM wurde 2015 jeweils ein Primetime Engineering Emmy Award zuerkannt.

Nach der ersten Veröffentlichung im Jahr 2002 markierten SSIM und seine Varianten eine Zeitlang den Stand der Technik bei der automatisierten Schätzung menschlichen Qualitätsempfindens. Seit 2007 steht mit der auf Spitzen-Signal-Rausch-Verhältnis (PSNR) basierenden und um Kontrastwahrnehmungs- und Maskierungskriterien erweiterten Metrik PSNR-HVS-M ein Algorithmus zur Verfügung, der in Vergleichen mit menschlichen Probanden wesentlich besser abschneidet.^[1]

Strukturelle Ähnlichkeit Bearbeiten

Der Unterschied in Bezug auf ältere erwähnte Techniken wie MSE oder PSNR ist, dass diese Ansätze absolute Fehler schätzen, während SSIM dagegen ein wahrnehmungsbasiertes Modell darstellt, das Bildfehlerzunahme als wahrgenommene Änderung in der Strukturinformation betrachtet, wobei auch wichtige wahrnehmungspsychologische Phänomene einbezogen werden, einschließlich Termen für Helligkeitsmaskierung und Kontrastmaskierung. Strukturinformation ist das Konzept, dass die Werte besonders räumlich naher Bildpunkte starke Übereinstimmungen aufweisen. Diese Abhängigkeiten tragen wichtige Information über die Struktur des Objektes in der Bildszene. Helligkeitsmaskierung ist ein Phänomen, das Bildstörungen (in diesem Zusammenhang) in hellen Bildbereichen tendenziell weniger auffällig erscheinen lässt, während Kontrastmaskierung ein Phänomen ist, das Störungen in Bildbereichen mit nennenswerter Aktivität oder Strukturierung weniger auffällig erscheinen lässt.

Algorithmus Bearbeiten

Der SSIM-Index wird über verschiedene Bildteile („Fenster“) berechnet. Die Differenz zwischen zwei Fenstern $x$ und $y$ von gleicher Größe N×N ist:

{\hbox{SSIM}}(x,y)={\frac {(2\mu _{x}\mu _{y}+c_{1})(2\sigma _{xy}+c_{2})}{(\mu _{x}^{2}+\mu _{y}^{2}+c_{1})(\sigma _{x}^{2}+\sigma _{y}^{2}+c_{2})}}

mit

$\mu _{x}$ dem Mittelwert von $x$
$\mu _{y}$ dem Mittelwert von $y$ ;
$\sigma _{x}^{2}={\frac {1}{N-1}}\sum _{i=1}^{N}(x_{i}-\mu _{x})^{2}$ der Varianz von $x$
$\sigma _{y}^{2}={\frac {1}{N-1}}\sum _{i=1}^{N}(y_{i}-\mu _{y})^{2}$ der Varianz von $y$
$\sigma _{xy}={\frac {1}{N-1}}\sum _{i=1}^{N}(x_{i}-\mu _{x})(y_{i}-\mu _{y})$ der Kovarianz von $x$ und $y$
$c_{1}=(k_{1}L)^{2}$ , $c_{2}=(k_{2}L)^{2}$ zwei Variablen zur Stabilisierung der Division bei kleinen Nennern
$L$ dem Dynamikumfang der Bildpunktwerte (typischerweise ist das $2^{\#bits\ per\ pixel}-1$ )
$k_{1}=0{,}01$ und $k_{2}=0{,}03$

Zur Beurteilung der Bildqualität wird diese Formel gewöhnlich nur auf die Helligkeitskomponente angewendet, wobei sie auch auf Farbwerte (zum Beispiel RGB) angewendet werden kann oder Chrominanzwerte (zum Beispiel YCbCr). Der resultierende SSIM-Index ist ein dezimaler Wert zwischen 0 und 1 und der Wert 1 ist nur im Falle zweier identischer Datensätze erreichbar. Typischerweise wird er auf Fenstergrößen von 8×8 Bildpunkten berechnet. Das Fenster kann Punkt für Punkt über das Bild verschoben werden, jedoch empfehlen die Autoren nur eine Untergruppe der möglichen Fenster zu verwenden, um die Komplexität der Berechnung zu verringern.

Der SSIM-Index kann verallgemeinert werden, indem drei Komponenten für den Vergleich der Ähnlichkeit berücksichtigt werden, nämlich Leuchtdichte, Kontrast und Struktur. Für diese Komponenten können Vergleichsfunktionen mit folgenden Eigenschaften definiert werden:

Symmetrie: $S(x,y)=S(y,x)$ für alle $x$ und $y$
Beschränktheit: $S(x,y)\leq 1$ für alle $x$ und $y$
Eindeutiges Maximum: $S(x,y)=1$ genau dann, wenn $x=y$

Die Vergleichsfunktion für die Leuchtdichte ist

l(x,y)={\frac {2\mu _{x}\mu _{y}+c_{1}}{\mu _{x}^{2}+\mu _{y}^{2}+c_{1}}}

wobei die Konstante $c_{1}$ enthalten ist, um Instabilität zu vermeiden, wenn $\mu _{x}^{2}+\mu _{y}^{2}$ fast 0 ist.

Die Vergleichsfunktion für den Kontrast ist

c(x,y)={\frac {2\sigma _{x}\sigma _{y}+c_{2}}{\sigma _{x}^{2}+\sigma _{y}^{2}+c_{2}}}

Ein wichtiges Merkmal dieser Funktion ist, dass sie bei gleicher Kontraständerung $\Delta \sigma =\sigma _{y}-\sigma _{x}$ bei hohem Basiskontrast $\sigma _{x}$ weniger empfindlich ist als bei niedrigem Basiskontrast.

Das Skalarprodukt zwischen den Einheitsvektoren ${\frac {x-\mu _{x}}{\sigma _{x}}}$ und ${\frac {y-\mu _{y}}{\sigma _{y}}}$ ist ein einfaches und effektives Maß, um die strukturelle Ähnlichkeit zu quantifizieren. Die Korrelation zwischen ${\frac {x-\mu _{x}}{\sigma _{x}}}$ und ${\frac {y-\mu _{y}}{\sigma _{y}}}$ entspricht dem Korrelationskoeffizienten zwischen $x$ und $y$ . Daher wird die Vergleichsfunktion für die Struktur wie folgt definiert:

s(x,y)={\frac {\sigma _{xy}+c_{3}}{\sigma _{x}\sigma _{y}+c_{3}}}

Es ist leicht zu erkennen, dass die Vergleichsfunktionen $l$ , $c$ , $s$ jeweils die drei oben aufgeführten Eigenschaften erfüllen. Indem diese drei Vergleichsfunktion kombiniert werden, ergibt sich der SSIM-Index:

{\text{SSIM}}(x,y)=\left[l(x,y)\right]^{\alpha }\cdot \left[c(x,y)\right]^{\beta }\cdot \left[s(x,y)\right]^{\gamma }

wobei $\alpha >0$ , $\beta >0$ , $\gamma >0$ Parameter sind, die verwendet werden, um die relative Bedeutung der drei Komponenten anzupassen. Für $\alpha =\beta =\gamma =1$ und $c_{3}={\frac {c_{2}}{2}}$ ergibt sich die oben genannte spezielle Form des SSIM-Index.^[4]^[7]

Varianten Bearbeiten

Mehrskalen-SSIM Bearbeiten

Eine fortgeschrittenere Form der SSIM, die Mehrskalen-SSIM^[8] wird über mehrere Skalen in einem Prozess mit mehrstufiger Verringerung der Abtastung durchgeführt, der an die Mehrskalen-Verarbeitung im frühen Sehsystem erinnert. Die Leistung von sowohl SSIM als auch Mehrskalen-SSIM war seinerzeit sehr hoch in Bezug auf Übereinstimmung mit menschlicher Beurteilung (gemessen an weithin genutzten öffentlichen Bildqualitätsdatenbanken einschließlich der LIVE Image Quality Database^[9] und der TID-Datenbank).

Strukturelle Unähnlichkeit Bearbeiten

(structural dissimilarity, DSSIM) ist eine von SSIM abgeleitete (wobei die Dreiecksungleichung nicht notwendigerweise erfüllt ist) Distanzmetrik.

{\hbox{DSSIM}}(x,y)={\frac {1-{\hbox{SSIM}}(x,y)}{2}}

Videoqualitätsmetriken Bearbeiten

Die ursprüngliche Version von SSIM wurde für die Beurteilung der Qualität von Standbildern entworfen. Sie enthält keine Parameter, die sich direkt auf zeitliche Aspekte menschlicher Wahrnehmung und Beurteilung bezögen. Es wurden allerdings einige Varianten von SSIM entwickelt, die zeitliche Phänomene berücksichtigen.

Eine einfache Anwendung von SSIM zur Beurteilung von Videoqualität wäre die Berechnung des durchschnittlichen SSIM-Wertes über alle Einzelbilder der Videosequenz.

Complex Wavelet SSIM Bearbeiten

Complex Wavelet SSIM wurde entwickelt, um Probleme der Skalierung, Translation und Rotation zu behandeln. Anstatt Bildern mit solchen Bedingungen niedrige Bewertungen zu geben, nutzt Complex Wavelet SSIM die komplexe Wavelet-Transformation und liefert daher den Bildern höhere Bewertungen. Complex Wavelet SSIM ist wie folgt definiert:

{\text{CW-SSIM}}(c_{x},c_{y})={\bigg (}{\frac {2\sum _{i=1}^{N}|c_{x,i}||c_{y,i}|+K}{\sum _{i=1}^{N}|c_{x,i}|^{2}+\sum _{i=1}^{N}|c_{y,i}|^{2}+K}}{\bigg )}{\bigg (}{\frac {2|\sum _{i=1}^{N}c_{x,i}c_{y,i}^{*}|+K}{2\sum _{i=1}^{N}|c_{x,i}c_{y,i}^{*}|+K}}{\bigg )}

wobei $c_{x}$ die komplexe Wavelet-Transformation für das Signal $x$ ist und $c_{y}$ die komplexe Wavelet-Transformation für das Signal $y$ ist. Außerdem ist $K$ eine kleine positive Zahl, die aus Gründen der Funktionsstabilität verwendet wird. Idealerweise sollte $K=0$ sein. Wie das SSIM hat CW-SSIM einen Maximalwert von 1. Der Maximalwert von 1 zeigt an, dass die beiden Signale gleich sind, während ein Wert von 0 keine strukturelle Ähnlichkeit anzeigt.^[10]

Diskussion der Leistung Bearbeiten

Eine Veröffentlichung von Dosselmann und Yang legt nahe, dass SSIM nicht so genau ist, wie behauptet wird.^[11] Sie behaupten, dass SSIM Werte liefert, die nicht besser mit menschlicher Bewertung übereinstimmen als MSE-Werte (Mittlere quadratische Abweichung).

Sie zweifeln die wahrnehmungspsychologische Grundlage von SSIM an, indem sie behaupten, dass die Formel keinerlei ausführliches Modell der visuellen Wahrnehmung enthält und dass sich SSIM möglicherweise auf wahrnehmungsferne Berechnungen stützt. Beispielsweise berechnet das menschliche Sehsystem kein Produkt zwischen den Durchschnittswerten der beiden Bilder.

Wie allerdings in der ursprünglichen Arbeit von 2004 gezeigt wurde, umfassen SSIM-Modell und -Algorithmus Modelle zentraler Elemente der Wahrnehmung von Bildstörungen, einschließlich den Mechanismen der Helligkeitsmaskierung und Kontrastmaskierung.

Weblinks Bearbeiten

Einzelnachweise Bearbeiten

↑ ^a ^b Nikolay Ponomarenko, Flavia Silvestri, Karen Egiazarian, Marco Carli, Jaakko Astola, Vladimir Lukin: On between-coefficient contrast masking of DCT basis functions Sammelwerk=CD-ROM Proceedings of the Third International Workshop on Video Processing and Quality Metrics for Consumer Electronics VPQM-07, 25.–26. Januar 2007. Scottsdale AZ 2007 (ponomarenko.info [PDF]).
↑ Stephen Wolf, Margaret H. Pinson: Video Quality Model for Variable Frame Delay (VQM_VFD), U.S. Department of Commerce, National Telecommunications and Information Administration, Boulder, Colorado, USA, Technology Memo TM-11-482, September 2011.
↑ Laboratory for Image and Video Engineering.
↑ ^a ^b Zhou Wang, A. C. Bovik, H. R. Sheikh, E. P. Simoncelli: Image quality assessment: from error visibility to structural similarity. In: IEEE Transactions on Image Processing. Band 13, Nr. 4, April 2004, ISSN 1057-7149, S. 600–612, doi:10.1109/TIP.2003.819861 (englisch).
↑ Best Paper Award. Signal Processing Society
↑ IEEE Signal Processing Society, Best Paper Award. In: signalprocessingsociety.org. Abgerufen im 1. Januar 1
↑ Zhou Wang, Alan C. Bovik, Hamid R. Sheikh, Eero P. Simoncelli: Image Quality Assessment: From Error Visibility to Structural Similarity
↑ Z. Wang, E. P. Simoncelli, A. C. Bovik: Multiscale structural similarity for image quality assessment. In: Conference Record of the Thirty-Seventh Asilomar Conference on Signals, Systems and Computers, 2004. Band 2, November 2003, S. 1398–1402, doi:10.1109/ACSSC.2003.1292216 (englisch).
↑ LIVE Image Quality Database.
↑ Zhou Wang, Eero P. Simoncelli: Translation intensive image similarity in complex wavelet domain
↑ Richard Dosselmann, Xue Dong Yang: A comprehensive assessment of the structural similarity index. In: Signal, Image and Video Processing. Band 5, Nr. 1, 6. November 2009, ISSN 1863-1703, S. 81–91, doi:10.1007/s11760-009-0144-1 (englisch).

[PSNR-HVS-M-1] Nikolay Ponomarenko, Flavia Silvestri, Karen Egiazarian, Marco Carli, Jaakko Astola, Vladimir Lukin: On between-coefficient contrast masking of DCT basis functions Sammelwerk=CD-ROM Proceedings of the Third International Workshop on Video Processing and Quality Metrics for Consumer Electronics VPQM-07, 25.–26. Januar 2007. Scottsdale AZ 2007 (ponomarenko.info [PDF]).

[VQM_VFD-2] Stephen Wolf, Margaret H. Pinson: Video Quality Model for Variable Frame Delay (VQM_VFD), U.S. Department of Commerce, National Telecommunications and Information Administration, Boulder, Colorado, USA, Technology Memo TM-11-482, September 2011.

[3] Laboratory for Image and Video Engineering.

[SSIM-4] Zhou Wang, A. C. Bovik, H. R. Sheikh, E. P. Simoncelli: Image quality assessment: from error visibility to structural similarity. In: IEEE Transactions on Image Processing. Band 13, Nr. 4, April 2004, ISSN 1057-7149, S. 600–612, doi:10.1109/TIP.2003.819861 (englisch).

[5] Best Paper Award. Signal Processing Society

[Best_Paper-6] IEEE Signal Processing Society, Best Paper Award. In: signalprocessingsociety.org. Abgerufen im 1. Januar 1

[7] Zhou Wang, Alan C. Bovik, Hamid R. Sheikh, Eero P. Simoncelli: Image Quality Assessment: From Error Visibility to Structural Similarity

[MSSIM-8] Z. Wang, E. P. Simoncelli, A. C. Bovik: Multiscale structural similarity for image quality assessment. In: Conference Record of the Thirty-Seventh Asilomar Conference on Signals, Systems and Computers, 2004. Band 2, November 2003, S. 1398–1402, doi:10.1109/ACSSC.2003.1292216 (englisch).

[9] LIVE Image Quality Database.

[10] Zhou Wang, Eero P. Simoncelli: Translation intensive image similarity in complex wavelet domain

[assessment-11] Richard Dosselmann, Xue Dong Yang: A comprehensive assessment of the structural similarity index. In: Signal, Image and Video Processing. Band 5, Nr. 1, 6. November 2009, ISSN 1863-1703, S. 81–91, doi:10.1007/s11760-009-0144-1 (englisch).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]