Hauptmenü öffnen

Wikipedia β

Korrelationskoeffizient

Maß für den Zusammenhang zweier Merkmale
(Weitergeleitet von Steigers Z-Test)

Der Korrelationskoeffizient, auch Produkt-Moment-Korrelation[1] ist ein dimensionsloses Maß für den Grad des linearen Zusammenhangs zwischen zwei mindestens intervallskalierten Merkmalen. Er kann Werte zwischen und annehmen. Bei einem Wert von (bzw. ) besteht ein vollständig positiver (bzw. negativer) linearer Zusammenhang zwischen den betrachteten Merkmalen. Wenn der Korrelationskoeffizient den Wert aufweist, hängen die beiden Merkmale überhaupt nicht linear voneinander ab. Allerdings können diese ungeachtet dessen in nichtlinearer Weise voneinander abhängen. Damit ist der Korrelationskoeffizient kein geeignetes Maß für die (reine) stochastische Abhängigkeit von Merkmalen. Das Quadrat des Korrelationskoeffizienten stellt das Bestimmtheitsmaß dar. Der Korrelationskoeffizient wurde erstmals vom britischen Naturforscher Sir Francis Galton (1822–1911) in den 1870er Jahren verwendet. Karl Pearson lieferte schließlich eine formal-mathematische Begründung für den Korrelationskoeffizienten.[2] Da er von Bravais und Pearson populär gemacht wurde, wird der Korrelationskoeffizient auch Pearson-Korrelation oder Bravais-Pearson-Korrelation genannt.

Je nachdem, ob der lineare Zusammenhang zwischen zeitgleichen Messwerten zweier verschiedener Merkmale oder derjenige zwischen zeitlich verschiedenen Messwerten eines einzigen Merkmals betrachtet wird, spricht man entweder von der Kreuzkorrelation oder von der Kreuzautokorrelation (siehe auch Zeitreihenanalyse).

Korrelationskoeffizienten wurden mehrfach – so schon von Ferdinand Tönnies – entwickelt, heute wird allgemein der von Karl Pearson verwendet.

Inhaltsverzeichnis

DefinitionenBearbeiten

Korrelationskoeffizient für ZufallsvariablenBearbeiten

KonstruktionBearbeiten

Als Ausgangspunkt für die Konstruktion des Korrelationskoeffizienten für zwei Zufallsvariablen   und   betrachtet man die beiden standardisierten (auf die Standardabweichung bezogenen) Zufallsvariablen   und  . Die Kovarianz dieser standardisierten Zufallsvariablen ergibt sich aus dem Satz für lineare Transformationen von Kovarianzen durch

 .

Der Korrelationskoeffizient lässt sich daher als die Kovarianz der standardisierten Zufallsvariablen   und   auffassen.[3]

DefinitionBearbeiten

Für zwei quadratisch integrierbare Zufallsvariablen   und   mit jeweils positiver Standardabweichung   bzw.   und Kovarianz   ist der Korrelationskoeffizient (Pearsonscher Maßkorrelationskoeffizient) definiert durch:

 

Durch die Definitionen der stochastischen Varianz und Kovarianz lässt sich der Korrelationskoeffizient für Zufallsvariablen auch wie folgt darstellen

 [4]

wobei   den Erwartungswert darstellt. Weitere übliche Schreibweisen sind   und  .

Ferner heißen   unkorreliert, falls   gilt. Für positive   und   ist das genau dann der Fall, wenn   ist. Sind   unabhängig, so sind sie auch unkorreliert, die Umkehrung gilt im Allgemeinen nicht.

Empirischer KorrelationskoeffizientBearbeiten

Für eine Messreihe von gepaarten Ausprägungen   wird der empirische Korrelationskoeffizient analog zum Korrelationskoeffizienten für Zufallsvariablen berechnet, nur dass man nun die empirische Kovarianz und die empirischen Varianzen der jeweiligen Zufallsvariablen verwendet:

 
 
Verschiedene Werte des Korrelationskoeffizienten

Dabei sind

  und  

die empirischen Mittelwerte anhand der Messreihe.

Im Rahmen der induktiven Statistik ist man an einer erwartungstreuen Schätzung   der wahren, unbekannten Korrelation   in der Grundgesamtheit interessiert. Daher werden in die Formel der Korrelation erwartungstreue Schätzer der Varianzen und der Kovarianz eingesetzt. Dies führt zur Formel:

 

Sind diese Messreihenwerte z-transformiert, also  , wobei   die erwartungstreue Schätzung der Streuung bezeichnet, gilt auch:

 

Da man in der deskriptiven Statistik nur den Zusammenhang zwischen zwei Variablen als normierte mittlere gemeinsame Streuung in der Stichprobe beschreiben will, wird die Korrelation auch berechnet als

 .

Da sich die Faktoren   bzw.   aus den Formeln herauskürzen, ergibt sich in beiden Fällen der gleiche Wert des Koeffizienten.

Eine "Vereinfachung" der obigen Formel zur leichteren Berechnung einer Korrelation lautet wie folgt:[5]

 

Diese Transformation der Formel ist aber numerisch instabil und sollte daher nicht mit Gleitkommazahlen verwendet werden, wenn die Mittelwerte nicht nahe null sind.[6]

BeispielBearbeiten

 
Streudiagramm mit Mittelwerten und dem Wert des Korrelationskoeffizienten

Für die elf Beobachtungspaare   sind die Werte in der unten stehenden Tabelle in der zweiten und dritten Spalte gegeben. Die Mittelwerte ergeben sich zu   und   und damit können die vierte und fünfte Spalte der Tabelle berechnet werden. Die sechste Spalte enthält das Produkt der vierten mit der fünften Spalte und damit ergibt sich  . Die beiden letzten Spalten enthalten jeweils die Quadrate der vierten und fünften Spalte und es ergibt sich   und  .

Damit ergibt sich für die Korrelation  .

               
1 10,00 8,04 1,00 0,54 0,54 1,00 0,29
2 8,00 6,95 −1,00 −0,55 0,55 1,00 0,30
3 13,00 7,58 4,00 0,08 0,32 16,00 0,01
4 9,00 8,81 0,00 1,31 0,00 0,00 1,71
5 11,00 8,33 2,00 0,83 1,66 4,00 0,69
6 14,00 9,96 5,00 2,46 12,30 25,00 6,05
7 6,00 7,24 −3,00 −0,26 0,78 9,00 0,07
8 4,00 4,26 −5,00 −3,24 16,20 25,00 10,50
9 12,00 10,84 3,00 3,34 10,02 9,00 11,15
10 7,00 4,82 −2,00 −2,68 5,36 4,00 7,19
11 5,00 5,68 −4,00 −1,82 7,28 16,00 3,32
  99,00 82,51 55,01 110,00 41,27
Alle Werte in der Tabelle sind auf zwei Stellen nach dem Komma gerundet!

EigenschaftenBearbeiten

Mit der Definition des Korrelationskoeffizienten gilt unmittelbar

  •   bzw.  
  •  .
  •  .

Mit der Cauchy-Schwarzschen Ungleichung sieht man, dass

  •  .

Durch Optimieren ergibt sich, dass   fast sicher genau dann, wenn  .

Sind die Zufallsgrößen   und   stochastisch voneinander unabhängig, dann gilt:

  •  .

Der Umkehrschluss ist allerdings nicht zulässig, denn es können Abhängigkeitsstrukturen vorliegen, die der Korrelationskoeffizient nicht erfasst. Für die multivariate Normalverteilung gilt jedoch: Die Zufallsvariablen   und   sind genau dann stochastisch unabhängig, wenn sie unkorreliert sind. Wichtig ist hierbei die Voraussetzung, dass   und   gemeinsam normalverteilt sind. Es reicht nicht aus, dass   und   jeweils normalverteilt sind.

Voraussetzungen für die Pearson-KorrelationBearbeiten

Der Korrelationskoeffizient nach Pearson erlaubt Aussagen über statistische Zusammenhänge unter folgenden Bedingungen:

SkalierungBearbeiten

Der Pearsonsche Korrelationskoeffizient liefert korrekte Ergebnisse bei intervallskalierten und bei dichotomen Daten. Für niedrigere Skalierungen existieren andere Korrelationskonzepte (z. B. Rangkorrelationskoeffizienten).

NormalverteilungBearbeiten

Für die Durchführung von standardisierten Signifikanztests über den Korrelationskoeffizienten in der Grundgesamtheit müssen beide Variablen annähernd normalverteilt sein. Bei zu starken Abweichungen von der Normalverteilung muss auf den Rangkorrelationskoeffizienten zurückgegriffen werden. (Alternativ kann man auch, falls die Verteilung bekannt ist, angepasste (nichtstandardisierte) Signifikanztests verwenden.)

LinearitätsbedingungBearbeiten

Zwischen den Variablen   und   wird ein linearer Zusammenhang vorausgesetzt. Diese Bedingung wird in der Praxis häufig ignoriert; daraus erklären sich mitunter enttäuschend niedrige Korrelationen, obwohl der Zusammenhang zwischen   und   bisweilen trotzdem hoch ist. Ein einfaches Beispiel für einen hohen Zusammenhang trotz eines niedrigen Korrelationskoeffizienten ist die Fibonacci-Folge. Alle Zahlen der Fibonacci-Folge sind durch ihre Position in der Reihe durch eine mathematische Formel exakt determiniert (siehe die Formel von Binet). Der Zusammenhang zwischen der Positionsnummer einer Fibonacci-Zahl und der Größe der Zahl ist vollkommen determiniert. Dennoch beträgt der Korrelationskoeffizient zwischen den Ordnungsnummern der ersten 360 Fibonacci-Zahlen und den betreffenden Zahlen nur 0,20; das bedeutet, dass in erster Näherung nicht viel mehr als   der Varianz durch den Korrelationskoeffizienten erklärt werden und 96 % der Varianz „unerklärt“ bleiben. Der Grund ist die Vernachlässigung der Linearitätsbedingung, denn die Fibonacci-Zahlen wachsen progressiv an: In solchen Fällen ist der Korrelationskoeffizient nicht korrekt interpretierbar. Eine mögliche Alternative, die ohne die Voraussetzung der Linearität des Zusammenhangs auskommt, ist die Transinformation.

SignifikanzbedingungBearbeiten

Ein Korrelationskoeffizient > 0 bei positiver Korrelation bzw. < 0 bei negativer Korrelation zwischen   und   berechtigt nicht a priori zur Aussage, es bestehe ein statistischer Zusammenhang zwischen   und  . Eine solche Aussage ist nur gültig, wenn der ermittelte Korrelationskoeffizient signifikant ist. Der Begriff „signifikant“ bedeutet hier „signifikant von Null verschieden“. Je höher die Anzahl der Wertepaare   und das Signifikanzniveau sind, desto niedriger darf der Absolutbetrag eines Korrelationskoeffizienten sein, um zur Aussage zu berechtigen, zwischen   und   gebe es einen linearen Zusammenhang. Ein t-Test zeigt, ob die Abweichung des ermittelten Korrelationskoeffizienten von Null auch signifikant ist.

Bildliche Darstellung und InterpretationBearbeiten

 
Verschiedene Punktwolken zusammen mit dem für sie jeweils berechenbaren Pearson’schen Korrelationskoeffizienten. Man beachte, dass letzterer zwar die Streuung der Punktwolke sowie die generelle Richtung der linearen Abhängigkeit von   und   widerspiegelt (obere Zeile), nicht aber deren Steilheit (mittlere Zeile). Verläuft die Punktwolke beispielsweise exakt waagerecht (mittleres Bild), kann aufgrund von   gar kein Korrelationskoeffizient berechnet werden. Ein weiterer Schwachpunkt des Pearson’schen Korrelationskoeffizienten sind nichtlineare Abhängigkeiten (untere Zeile), die mit Hilfe dieses Koeffizienten meist gar nicht oder nur unzureichend erfasst werden können.

Sind zwei Merkmale vollständig miteinander korreliert (d. h.  ), so liegen alle Messwerte in einem 2-dimensionalen Koordinatensystem auf einer Geraden. Bei einer perfekten positiven Korrelation ( ) steigt die Gerade. Wenn die Merkmale perfekt negativ miteinander korreliert sind ( ), sinkt die Gerade. Besteht zwischen zwei Merkmalen eine sehr hohe Korrelation, sagt man oft auch, sie erklären dasselbe.

Je näher der Betrag von   bei 0 liegt, desto kleiner der lineare Zusammenhang. Für   kann der statistische Zusammenhang zwischen den Messwerten nicht mehr durch eine eindeutig steigende oder sinkende Gerade dargestellt werden. Dies ist z. B. der Fall, wenn die Messwerte rotationssymmetrisch um den Mittelpunkt verteilt sind. Dennoch kann dann ein nichtlinearer statistischer Zusammenhang zwischen den Merkmalen gegeben sein. Umgekehrt gilt jedoch: Wenn die Merkmale statistisch unabhängig sind, nimmt der Korrelationskoeffizient stets den Wert 0 an.

Der Korrelationskoeffizient ist kein Indiz eines ursächlichen (d. h. kausalen) Zusammenhangs zwischen den beiden Merkmalen: Die Besiedlung durch Störche im Südburgenland korreliert zwar positiv mit der Geburtenzahl der dortigen Einwohner, doch das bedeutet noch keinen „kausalen Zusammenhang“, trotzdem ist ein „statistischer Zusammenhang“ gegeben. Dieser leitet sich aber aus einem anderen, weiteren Faktor ab, wie dies im Beispiel durch Industrialisierung oder der Wohlstandssteigerung begründet sein kann, die einerseits den Lebensraum der Störche einschränkten und andererseits zu einer Verringerung der Geburtenzahlen führten. Korrelationen dieser Art werden Scheinkorrelationen genannt.

Der Korrelationskoeffizient kann kein Indiz über die Richtung eines Zusammenhanges sein: Steigen die Niederschläge durch die höhere Verdunstung oder steigt die Verdunstung an, weil die Niederschläge mehr Wasser liefern? Oder bedingen sich beide gegenseitig, also möglicherweise in beiderlei Richtung?

Ob ein gemessener Korrelationskoeffizient als groß oder klein interpretiert wird, hängt stark von der Art der untersuchten Daten ab. Bei psychologischen Fragebogendaten werden z. B. Werte bis ca. 0,3 häufig als klein angesehen, ab ca. 0,5 als gut, während man ab ca. 0,7–0,8 von einer (sehr) hohen Korrelation spricht.

Das Quadrat des Korrelationskoeffizienten   nennt man Bestimmtheitsmaß. Es gibt in erster Näherung an, wie viel Prozent der Varianz, d. h. Streuung, der einen Variable durch die Streuung der anderen Variable erklärt werden können. Beispiel: Bei r = 0,3 werden 9 % (= 0,3² = 0,09) der gesamten auftretenden Varianz im Hinblick auf einen statistischen Zusammenhang erklärt.

Fisher-TransformationBearbeiten

Empirische Korrelationskoeffizienten sind nicht normalverteilt. Vor der Berechnung von Konfidenzintervallen muss daher erst eine Korrektur der Verteilung mit Hilfe der Fisher-Transformation vorgenommen werden. Wenn die Daten   und   aus einer zumindest annähernd bivariat normalverteilten Grundgesamtheit stammen, dann ist der empirische Korrelationskoeffizient   rechtssteil unimodal verteilt.

Die Fisher-Transformation des Korrelationskoeffizienten   lautet dann:

 

  ist annähernd normalverteilt mit der Standardabweichung   und Mittelwert

 

wobei   hier für den Korrelationskoeffizienten der Grundgesamtheit steht. Die auf Basis dieser Normalverteilung errechnete Wahrscheinlichkeit, dass der Mittelwert von den beiden Grenzen   und   umschlossen wird beträgt

 ,

und wird sodann retransformiert zu

 

Das  -Konfidenzintervall für die Korrelation lautet sodann

 .

Konfidenzintervalle von Korrelationen liegen in aller Regel unsymmetrisch bezüglich ihres Mittelwerts.

Test des Korrelationskoeffizienten / Steigers Z-TestBearbeiten

Folgende Tests (Steigers Z-Test[7]) können durchgeführt werden, wenn die Variablen   und   annähernd bivariat normalverteilt sind:

  vs.   (zweiseitige Hypothese)
  vs.   (rechtsseitige Hypothese)
  vs.   (linksseitige Hypothese)

Die Teststatistik ist

 

standardnormalverteilt (  ist die Fisher-Transformation, siehe vorherigen Abschnitt).

Im Spezialfall der Hypothese   vs.   ergibt sich die Teststatistik als t-verteilt mit   Freiheitsgraden:

 .

Partieller KorrelationskoeffizientBearbeiten

 
Folgende Graphik zeigt ein Beispiel: Zwischen   und   besteht eine merkliche Korrelation. Betrachtet man die beiden rechten Punktwolken, so erkennt man, dass   und   jeweils stark mit   korrelieren. Die beobachtete Korrelation zwischen   und   basiert nun fast ausschließlich auf diesem Effekt.

Eine Korrelation zwischen zwei Zufallsvariablen   und   kann unter Umständen auf einen gemeinsamen Einfluss einer dritten Zufallsvariablen   zurückgeführt werden. Um solch einen Effekt zu messen, gibt es das Konzept der partiellen Korrelation (auch Partialkorrelation genannt). Die „partielle Korrelation von   und   unter  “ ist gegeben durch

 

Beispiel aus dem Alltag:

In einer Firma werden zufällig Mitarbeiter ausgewählt und die Körpergröße bestimmt. Zudem muss jeder Befragte sein Einkommen angeben. Das Ergebnis der Untersuchung ist, dass Körpergröße und Einkommen positiv korrelieren, also größere Personen auch mehr verdienen. Bei einer genaueren Untersuchung stellt sich jedoch heraus, dass der Zusammenhang auf die Drittvariable Geschlecht zurückgeführt werden kann. Frauen sind im Durchschnitt kleiner als Männer, verdienen aber auch oftmals weniger. Berechnet man nun die Partialkorrelation zwischen Einkommen und Körpergröße unter Kontrolle des Geschlechts, so verschwindet der Zusammenhang. Größere Männer verdienen demnach beispielsweise nicht mehr als kleinere Männer. Dieses Beispiel ist fiktiv und der Zusammenhang in der Realität komplizierter,[8] es kann jedoch die Idee der Partialkorrelation veranschaulichen.

Robuste KorrelationskoeffizientenBearbeiten

Der Korrelationskoeffizient nach Pearson ist empfindlich gegenüber Ausreißern. Deswegen wurden verschiedene robuste Korrelationskoeffizienten entwickelt, z. B.

QuadrantenkorrelationBearbeiten

Die Quadrantenkorrelation ergibt sich aus der Anzahl der Beobachtungen in den vier vom Medianenpaar bestimmten Quadranten. Dazu zählt man, wie viele der Beobachtungen in den Quadranten I und III liegen ( ) bzw. wie viele sich in den Quadranten II und IV befinden ( ). Die Beobachtungen in den Quadranten I und III liefern jeweils einen Beitrag von   und die Beobachtungen in den Quadranten II und IV von  :

 

mit   der Signumfunktion,   der Zahl der Beobachtungen und   und   den Medianen der Beobachtungen. Da jeder Wert von   entweder  ,   oder   ist, spielt es keine Rolle wie weit eine Beobachtung von den Medianen entfernt ist.

Über die Quadrantenkorrelation kann mit Hilfe des Median-Tests die Hypothesen   vs.   überprüft werden. Ist   die Zahl der Beobachtungen mit  ,   die Zahl der Beobachtungen mit   und  , dann ist folgende Teststatistik Chi-Quadrat-verteilt mit einem Freiheitsgrad:

 .

Schätzung der Korrelation zwischen nicht-metrischen VariablenBearbeiten

Die Schätzung der Korrelation mit dem Korrelationskoeffizienten nach Pearson setzt voraus, dass beide Variablen intervallskaliert und normalverteilt sind. Dagegen können die Rangkorrelationskoeffizienten immer dann zur Schätzung der Korrelation verwendet werden, wenn beide Variablen mindestens ordinalskaliert sind. Die Korrelation zwischen einer dichotomen und einer intervallskalierten und normalverteilten Variablen kann mit der punktbiserialen Korrelation geschätzt werden. Die Korrelation zwischen zwei dichotomen Variablen kann mit dem Vierfelderkorrelationskoeffizienten geschätzt werden. Hier kann man die Unterscheidung treffen, dass bei zwei natürlich dichotomen Variablen die Korrelation sowohl durch den Odds Ratio (OR) als auch durch den Phi-Koeffizient berechnet werden kann. Eine Korrelation aus zwei ordinal oder einer intervall und einer ordinal gemessenen Variablen ist mit Spearmans Rho oder Kendalls Tau berechenbar.

Siehe auchBearbeiten

LiteraturBearbeiten

  • Francis Galton: Co-relations and their measurement, chiefly from anthropometric data. In: Proceedings of the Royal Society. Band 45, Nr. 13, 5. Dezember 1888, S. 135–145 (galton.org [PDF; abgerufen am 12. September 2012]).
  • Birk Diedenhofen, Jochen Musch: cocor: A Comprehensive Solution for the Statistical Comparison of Correlations. 2015. PLoS ONE, 10(4): e0121945
  • Joachim Hartung: Statistik. 12. Auflage, Oldenbourg Verlag 1999, S. 561 f., ISBN 3-486-24984-3
  • Peter Zöfel: Statistik für Psychologen. Pearson Studium 2003, München, S. 154.

WeblinksBearbeiten

EinzelnachweiseBearbeiten

  1. Der Name Produkt-Moment-Korrelation für den Korrelationskoeffizienten für Zufallsvariablen rührt daher, dass   die auf das Produkt der Varianzen – die im Sinne der Stochastik Momente darstellen – von   und   bezogene Kovarianz ist.
  2. Franka Miriam Brückler: Geschichte der Mathematik kompakt. Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6, S. 116.
  3. L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer 2016, S. 326.
  4. Bayer, Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik, S. 86.
  5. Jürgen Bortz, Christof Schuster: Statistik für Human- und Sozialwissenschaftler. 7. Auflage. Springer-Verlag GmbH, Berlin / Heidelberg / New York 2010, ISBN 978-3-642-12769-4, S. 157.
  6. Erich Schubert, Michael Gertz: Numerically stable parallel computation of (co-)variance. ACM, 2018, ISBN 978-1-4503-6505-5, S. 10, doi:10.1145/3221269.3223036 (acm.org [abgerufen am 7. August 2018]).
  7. J. H. Steiger: Tests for comparing elements of a correlation matrix. 1980. Psychological Bulletin, 87, 245–251.
  8. Der Einfluss der Körpergröße auf Lohnhöhe und Berufswahl: Aktueller Forschungsstand und neue Ergebnisse auf Basis des Mikrozensus.