Korrespondenzanalyse Kontingenztabelle

Kontigenztafeln und Unabhängigkeit

Bearbeiten

Die Basis für die Korrespondenzanalyse ist eine Kontigenztafel   (auch: Kontingenztabelle oder Kreuztabelle) mit den absoluten Häufigkeiten des gemeinsamen Auftretens von zwei Merkmalen   und  , jeweils mit   Merkmalsausprägungen (oder Zeilenkategorien)   bzw. mit   Merkmalsausprägungen (oder Spaltenkategorien)  .

  ist die absolute Häufigkeit mit der die Merkmalskombination   in den Daten mit   Datenpunkten aufgetreten ist.   sind die Zeilensummen (oder Randhäufigkeit von  ) bzw.   sind die Spaltensummen (oder Randhäufigkeiten von  ).

Im ersten Schritt wird die Kontingenztafel   mit den relativen Häufigkeiten mit  ,   und   berechnet. Wenn die Variablen   und   unabhängig sind, dann gilt für alle Zellen der Kontingenztafeln

  bzw.  .
Kontigentztafel  mit absoluten Häufigkeiten
          Randhäufig-
keit von  
           
           
           
           
Randhäufig-
keit von  
         
Kontigentztafel   mit relativen Häufigkeiten
          Randhäufig-
keit von  
           
           
           
           
Randhäufig-
keit von  
         

Die quadratische Kontingenz   ist die Basis um den Zusammenhang zwischen zwei nomial skalierten Variablen zu messen. Ist quadratische Kontingenz gleich Null sind die beiden Variablen unabhängig.

 .

Der Beitrag jeder Zelle zu quadratischen Kontingenz wird dem Residuum

 

und es gilt  .

Je stärker des Residuum   von Null abweicht desto größer ist der Beitrag der Zelle zur quadratischen Kontingenz. Ist das Residuum negativ, dann hat man in den Daten eine geringes Auftreten der entsprechenden Merkmalskombination als unter Unabhäbngigkeit zu erwarten wäre. Ist das Residuum positiv, dann hat man in den Daten eine höheres Auftreten der entsprechenden Merkmalskombination als unter Unabhäbngigkeit zu erwarten wäre.

Die Terminologie in der Korrespondenzanalyse verwendet wegen formaler Analogien zur Physik (Baryzentrum, Trägheit, usw.) folgende Begrifflichkeiten:

  • Zeilen- und Spaltenkategorien sind gegeben durch die Vektoren   ( te Zeilenkategorie) bzw.   ( te Spaltenkategorie)
  • Zeilen- und Spaltenmassen für die Zeilensummen   und Spaltensummen  ,
  • Zeilen- und Spaltenprofile sind die Vektoren der bedingten Häufigkeiten der Kontigenztafel mit dem  ten Zeilenprofil   und dem  ten Spaltenprofil  
  • das mittlere Zeilen- und Spaltenprofil sind die Vektoren   bzw.  
  •   heißt Gesamtträgheit oder Gesamt-Inertia der Kontigenztafel
  • die Zeilen- und die Spaltenträgheit sind gegeben durch
  ( te Zeilenträgheit) und   ( te Spaltenträgheit

und es gilt

  • sind die beiden Variablen   und   unabhängig, dann müssen alle Zeilenprofile identisch zum mittleren Zeilenprofil bzw. alle Spaltenprofile identisch zum mittleren Spaltenprofil sein.
  • für Zeilen- und die Spaltenträgheiten  

Visualisierung

Bearbeiten

Um die Ergebnisse der Korrespondenzanalyse zu visualisieren, wird eine grafische Darstellung der Zeilen und Spalten als Punkte in einem niedrig-dimensionalen Raum gesucht. Dabei sollen die Punkte ähnlicher Zeilen- und Spalten nahe beieinander liegen und die Punkte unähnlicher Zeilen- und Spaltenprofile weit voneinander entfernt liegen.

Biplot (Singulärwertzerlegung)

Bearbeiten

Multidimensionaler Skalierung

Bearbeiten

Liegen die Distanzen   zwischen zwei Zeilenprofilen vor, so kann man z.B. mit der multidimensionalen Skalierung eine niedrigdimensionale Punktekonfiguration finden, die alle Distanzen   möglichst gut approximiert.

Im allgemeinen kann eine Distanzmatrix mit   Zeilen und   Spalte in einen Raum der Dimension   repräsentiert werden, so das die Distanzen zwischen den Profilen erhalten bleiben. Handelt es sich um euklidische Distanzen, dann ist die Dimension der Rang der Gram-Matrix   mit  .

Hauptkomponenten oder Faktorenanalyse

Bearbeiten

Da auch die hochdimensionalen Koordinaten   vorliegen kann mit der Hauptkomponentenanalyse oder auch der Faktorenanalyse eine niedrigdimensionale Punktekonfiguration gefunden werden. Die Hauptkomponentenanalyse versucht jedoch die Distanzen zwischen den Zeilenprofilen und dem mittlere Zeilenprofil möglichst gut zu approximieren und nur indirekt die Distanzen zwischen den Zeilenprofilen. Die Faktorenanalyse versucht die Korrelation zwischen den Punkten für die Zeilenprofilen zu approximieren.

Chi Quadrat Distanz

Bearbeiten

Je ähnlicher sich nun die Profile zweier Zeilen (oder Spalten) sind, desto näher sollten die die Zeilenkategorien repräsentierenden Punkte in dem Koordinatensystem, das die   latenten Variablen abbildet, liegen. Wenn die Koordinaten der  -dimensionalen Punkte mit   und   bezeichnet werden, dann ist der euklidische Abstand

 .

Wählt man   mit  , so ergibt sich ein geeignetes Distanzmaß. Für das mittlere Zeilenprofil, da die Zeilensumme  , gilt

 .

Setzt man das mittlere Zeilenprofil in das Distanzmaß ein, so ergibt sich:

 

Sind die Variablen   und   unabhängig, dann entspricht die beobachtete Häufigkeit   der erwarteten Häufigkeit  , d.h.  .

Das Distanz misst nicht nur die Distanz zwischen zwei Zeilenprofilen, sondern auch den Abstand zum Zeilenprofil, das unter Unabhängigkeit erwartet wird.

Die  te Zeilenträgheit lässt sich schreiben als   und die Gesamträgheit als  .

Für die Spaltenprofile kann analog vorgegangen werden.

Ergebnisse für das Beispiel

Bearbeiten

Für das Beispiel von oben mit den Klassen und Schulfächern ergeben sich folgende Kontingenztafeln mit den absoluten und relativen Häufigkeiten.

Absolute Häufigkeiten
Klasse Mathe Deutsch Englisch Kunst  
5 20 15 10 5 50
6 25 20 8 7 60
7 18 22 12 6 58
8 12 18 15 10 55
  75 75 45 28 223
Relative Häufigkeiten  
Klasse Mathe Deutsch Englisch Kunst  
5 0,009 0,067 0,045 0,022 0,224
6 0,112 0,090 0,036 0,031 0,289
7 0,081 0,099 0,054 0,025 0,260
8 0,054 0,081 0,067 0,045 0,247
  0,336 0,336 0,202 0,126 1,000

Damit folgen die Zeilen- und Spaltenprofile mit dem mittleren Zeilenprofil   und dem mittleren Spaltenprofil  :

Zeilenprofile (bedingte Häufigkeiten)
Klasse Mathe Deutsch Englisch Kunst  
5 0,400 0,300 0,300 0,100 1,000
6 0,417 0,333 0,133 0,117 1,000
7 0,310 0,379 0,207 0,103 1,000
8 0,218 0,328 0,273 0,182 1,000
c 0,336 0,336 0,202 0,126 1,000
Spaltenprofile (bedingte Häufigkeiten)
Klasse Mathe Deutsch Englisch Kunst r
5 0,257 0,200 0,222 0,179 0,224
6 0,333 0,267 0,178 0,250 0,289
7 0,240 0,293 0,267 0,214 0,260
8 0,160 0,240 0,333 0,357 0,247
  1,000 1,000 1,000 1,000 1,000