Hauptmenü öffnen

Chi-Quadrat-Verteilung

Verteilung über der Summe quadrierter unabhängiger normalverteilter Zufallsvariablen

Die Chi-Quadrat-Verteilung (-Verteilung) ist eine stetige Wahrscheinlichkeitsverteilung über der Menge der nichtnegativen reellen Zahlen. Üblicherweise ist mit „Chi-Quadrat-Verteilung“ die zentrale Chi-Quadrat-Verteilung gemeint. Die Chi-Quadrat-Verteilung hat einen einzigen Parameter, nämlich die Anzahl der Freiheitsgrade .

Dichten der Chi-Quadrat-Verteilung mit unterschiedlicher Anzahl an Freiheitsgraden k

Sie ist eine der Verteilungen, die aus der Normalverteilung abgeleitet werden kann: Hat man Zufallsvariablen , die unabhängig und standardnormalverteilt sind, so ist die Chi-Quadrat-Verteilung mit Freiheitsgraden definiert als die Verteilung der Summe der quadrierten Zufallsvariablen . Solche Summen quadrierter Zufallsvariablen treten bei Schätzfunktionen wie der Stichprobenvarianz zur Schätzung der empirischen Varianz auf. Die Chi-Quadrat-Verteilung ermöglicht damit unter anderem ein Urteil über die Kompatibilität eines vermuteten funktionalen Zusammenhangs (Abhängigkeit von der Zeit, Temperatur, Druck etc.) mit empirisch ermittelten Messpunkten. Kann z. B. eine Gerade die Daten erklären, oder braucht man doch eine Parabel oder vielleicht einen Logarithmus? Man wählt verschiedene Modelle aus, und dasjenige mit der besten Anpassungsgüte, dem kleinsten , bietet die beste Erklärung der Daten.[1][2] So stellt die -Verteilung durch die Quantifizierung der zufälligen Schwankungen die Auswahl verschiedener Erklärungsmodelle auf eine numerische Basis. Außerdem erlaubt sie, wenn man die empirische Varianz bestimmt hat, die Schätzung des Vertrauensintervalls, das den (unbekannten) Wert der Varianz der Grundgesamtheit mit einer gewissen Wahrscheinlichkeit einschließt. Diese und weitere Anwendungen sind weiter unten und im Artikel Chi-Quadrat-Test beschrieben.

Die Chi-Quadrat-Verteilung wurde 1876 eingeführt von Friedrich Robert Helmert, die Bezeichnung stammt von Karl Pearson (1900).[3]

DefinitionBearbeiten

 
Dichte und Verteilung von mehreren Chi-Quadrat-verteilten Zufallsgrößen

Das Quadrat einer standardnormalverteilten Zufallsvariable   folgt einer Chi-Quadrat-Verteilung mit einem Freiheitsgrad:

 .

Weiterhin gilt, wenn   gemeinsam stochastisch unabhängige Chi-Quadrat-verteilte Zufallsvariablen sind, dann ist deren Summe Chi-Quadrat-verteilt mit der Summe der jeweiligen Freiheitsgrade[4]

 .

Die Chi-Quadrat-Verteilung ist also reproduktiv. Seien   stochastisch unabhängige und standardnormalverteilte Zufallsvariablen, dann gilt für deren Quadratsumme  , dass sie Chi-Quadrat-verteilt mit der Anzahl der Freiheitsgrade   ist:

 .

Das Zeichen   ist eine Kurzschreibweise für „folgt der Verteilung“. Bspw. bedeutet  ; auch oft als   geschrieben: Die Zufallsvariable   folgt einer Chi-Quadrat-Verteilung mit der Anzahl der Freiheitsgrade  . Die Summe quadrierter Größen kann keine negativen Werte annehmen.

Im Unterschied dazu gilt für die einfache Summe   mit um den Nullpunkt symmetrischer Verteilung.

DichteBearbeiten

Die Dichte   der  -Verteilung mit   Freiheitsgraden hat die Form:

 

Dabei steht   für die Gammafunktion. Die Werte von   kann man mit

 
 .

berechnen.

VerteilungsfunktionBearbeiten

Die Verteilungsfunktion kann man mit Hilfe der regularisierten unvollständigen Gammafunktion schreiben:

 

Wenn   eine natürliche Zahl ist, dann kann die Verteilungsfunktion (mehr oder weniger) elementar dargestellt werden:

 
 

wobei   die Fehlerfunktion bezeichnet. Die Verteilungsfunktion beschreibt die Wahrscheinlichkeit, dass   im Intervall   liegt.

EigenschaftenBearbeiten

ErwartungswertBearbeiten

Der Erwartungswert der Chi-Quadrat-Verteilung mit   Freiheitsgraden ist gleich der Anzahl der Freiheitsgrade

 .

Unter der Voraussetzung einer standardnormalverteilten Grundgesamtheit sollte also bei richtiger Abschätzung der Varianz der Grundgesamtheit der Wert   in der Nähe von 1 liegen.

VarianzBearbeiten

Die Varianz der Chi-Quadrat-Verteilung mit   Freiheitsgraden ist gleich 2 mal die Anzahl der Freiheitsgrade

 .

ModusBearbeiten

Der Modus der Chi-Quadrat-Verteilung mit   Freiheitsgraden ist   für  .

SchiefeBearbeiten

Die Schiefe   der Chi-Quadrat-Verteilung mit   Freiheitsgraden ist

 .

Die Chi-Quadrat-Verteilung besitzt eine positive Schiefe, d. h., sie ist linkssteil- bzw. rechtsschief. Je höher die Anzahl der Freiheitsgrade  , desto weniger schief ist die Verteilung.

KurtosisBearbeiten

Die Kurtosis (Wölbung)   der Chi-Quadrat-Verteilung mit   Freiheitsgraden ist gegeben durch

 .

Der Exzess   gegenüber der Normalverteilung ergibt sich damit zu   .[5] Daher gilt: Je höher die Anzahl der Freiheitsgrade  , desto geringer der Exzess.

Momenterzeugende FunktionBearbeiten

Die momenterzeugende Funktion für   hat die Form[6]

 .

Charakteristische FunktionBearbeiten

Die charakteristische Funktion für   ergibt sich aus der momenterzeugenden Funktion als:

 .

EntropieBearbeiten

Die Entropie der Chi-Quadrat-Verteilung (ausgedrückt in nats) beträgt

 

wobei ψ(p) die Digamma-Funktion bezeichnet.

Nichtzentrale Chi-Quadrat-VerteilungBearbeiten

Wenn die normalverteilten Zufallsvariablen nicht bezüglich ihres Erwartungswertes   zentriert sind (d. h., wenn nicht alle   sind), erhält man die nichtzentrale Chi-Quadrat-Verteilung. Sie hat als zweiten Parameter neben   den Nichtzentralitätsparameter  .

Seien  , so ist

  mit  .

Insbesondere folgt aus   und  , dass   ist.

Eine zweite Möglichkeit, eine nichtzentrale Chi-Quadrat-Verteilung zu erzeugen, ist als Mischverteilung der zentralen Chi-Quadrat-Verteilung. Dabei ist

 ,

wenn   aus einer Poisson-Verteilung gezogen wird.

DichtefunktionBearbeiten

Die Dichtefunktion der nichtzentralen Chi-Quadrat-Verteilung ist

  für   ,   für   .

Die Summe über j führt auf eine modifizierte Bessel-Funktion erster Gattung   . Damit erhält die Dichtefunktion folgende Form:

  für  .

Erwartungswert und Varianz der nichtzentralen Chi-Quadrat-Verteilung   und   gehen ebenso wie die Dichte selbst bei   in die entsprechenden Ausdrücke der zentralen Chi-Quadrat-Verteilung über.

VerteilungsfunktionBearbeiten

Die Verteilungsfunktion der nichtzentralen Chi-Quadrat-Verteilung kann mit Hilfe der Marcum-Q-Funktion   ausgedrückt werden.[7]

 

BeispielBearbeiten

Man macht   Messungen einer Größe  , die aus einer normalverteilten Grundgesamtheit stammen. Sei   der empirische Mittelwert der   gemessenen Werte und

 

die korrigierte Stichprobenvarianz. Dann lässt sich z. B. das 95 %-Konfidenzintervall für die Varianz der Grundgesamtheit   angeben:

 

wobei   durch   und   durch   bestimmt wird, und deshalb auch  . Die Grenzen ergeben sich daraus, dass   wie   verteilt ist.

Herleitung der Verteilung der StichprobenvarianzBearbeiten

Sei   eine Stichprobe von   Messwerten, gezogen aus einer normalverteilten Zufallsvariablen   mit empirischen Mittelwert   und Stichprobenvarianz   als Schätzfunktionen für Erwartungswert   und Varianz   der Grundgesamtheit.

Dann lässt sich zeigen, dass   verteilt ist wie  .

Dazu werden nach Helmert[8] die   mittels einer orthonormalen Linearkombination in neue Variablen   transformiert. Die Transformation lautet:

 
 
    
 
 

Die neuen unabhängigen Variablen   sind wie   normalverteilt mit gleicher Varianz  , aber mit Erwartungswert   beides aufgrund der Faltungsinvarianz der Normalverteilung.

Außerdem gilt für die Koeffizienten   in   (falls   , ist  ) wegen der Orthonormalität   (Kronecker-Delta) und damit

 

Deshalb ergibt sich nun für die Summe der Abweichungsquadrate

 

und schlussendlich nach Division durch  

 

Der Ausdruck auf der linken Seite ist offenbar verteilt wie eine Summe von quadrierten standardnormalverteilten unabhängigen Variablen mit   Summanden, wie für   gefordert.

Demnach ist also die Summe Chi-Quadrat-verteilt mit   Freiheitsgraden  , während laut Definition der Chi-Quadrat-Summe  . Ein Freiheitsgrad wird hier „verbraucht“, denn aufgrund der Schwerpunkteigenschaft des empirischen Mittels   ist die letzte Abweichung   bereits durch die ersten   bestimmt. Folglich variieren nur   Abweichungen frei und man mittelt die empirische Varianz deshalb, indem man durch die Anzahl der Freiheitsgrade   dividiert.

Beziehung zu anderen VerteilungenBearbeiten

Beziehung zur GammaverteilungBearbeiten

Die Chi-Quadrat-Verteilung ist ein Spezialfall der Gammaverteilung. Ist  , so gilt

 

Beziehung zur NormalverteilungBearbeiten

 
Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung
  • Seien   unabhängige und standardnormalverteilte Zufallsvariablen, dann gilt für deren Quadratsumme  , dass sie Chi-Quadrat-verteilt mit der Anzahl der Freiheitsgrade   ist:
 .
  • Für   ist   näherungsweise standardnormalverteilt.
  • Für   ist die Zufallsvariable   näherungsweise normalverteilt, mit Erwartungswert   und Standardabweichung   bzw. bei einer nichtzentralen Chi-Quadrat-Verteilung mit Erwartungswert   und Standardabweichung  .

Beziehung zur ExponentialverteilungBearbeiten

Eine Chi-Quadrat-Verteilung mit 2 Freiheitsgraden ist eine Exponentialverteilung   mit dem Parameter  .

Beziehung zur Erlang-VerteilungBearbeiten

Eine Chi-Quadrat-Verteilung mit   Freiheitsgraden ist identisch mit einer Erlang-Verteilung   mit   Freiheitsgraden und  .

Beziehung zur F-VerteilungBearbeiten

Seien   und   unabhängige Chi-Quadrat-verteilte Zufallsvariablen mit   und   Freiheitsgraden, dann ist der Quotient

 

F-verteilt mit   Zählerfreiheitsgraden und   Nennerfreiheitsgraden.[9]

Beziehung zur Poisson-VerteilungBearbeiten

Die Verteilungsfunktionen der Poisson-Verteilung und der Chi-Quadrat-Verteilung hängen auf folgende Weise zusammen:

Die Wahrscheinlichkeit,   oder mehr Ereignisse in einem Intervall zu finden, innerhalb dessen man im Mittel   Ereignisse erwartet, gleicht der Wahrscheinlichkeit, dass der Wert von   ist. Es gilt nämlich

 ,

mit   und   als regularisierte Gammafunktionen.

Beziehung zur stetigen GleichverteilungBearbeiten

Für gerade   kann man die  -Verteilung als  -fache Faltung bilden mit Hilfe der gleichmäßig stetigen Dichte  :

 ,

worin die     unabhängige gleichmäßig stetig verteilte Zufallsvariablen sind.

Für ungerade   gilt dagegen

 

Herleitung der DichtefunktionBearbeiten

Die Dichte der Zufallsvariable  , mit   unabhängig und standardnormalverteilt, ergibt sich aus der gemeinsamen Dichte der Zufallsvariablen  . Diese gemeinsame Dichte ist das  -fache Produkt der Standardnormalverteilungsdichte:

 

Für die gesuchte Dichte gilt:

 

mit  

Im Grenzwert ist die Summe im Argument der Exponentialfunktion gleich z, sie darf deshalb vor das Integral und den Limes gezogen werden.

Das verbleibende Integral

 

entspricht dem Volumen der Schale zwischen der Kugel mit Radius   und der Kugel mit Radius   ,

wobei   das Volumen der n-dimensionalen Kugel mit Radius R angibt.

Es folgt:  

und nach Einsetzen in den Ausdruck für die gesuchte Dichte:  .

QuantilfunktionBearbeiten

Die Quantilfunktion   der Chi-Quadrat-Verteilung ist die Lösung der Gleichung   und damit prinzipiell über die Umkehrfunktion zu berechnen. Konkret gilt hier

 

mit   als Inverse der regularisierten unvollständigen Gammafunktion. Dieser Wert   ist in der Quantiltabelle unter den Koordinaten   und   eingetragen.

Quantilfunktion für kleinen StichprobenumfangBearbeiten

Für wenige Werte   (1, 2, 4) kann man die Quantilfunktion auch alternativ angeben:

 
 
 

wobei   die Fehlerfunktion,   den unteren Zweig der Lambertschen W-Funktion bezeichnet und   die Eulersche Zahl.

Näherung der Quantilfunktion für feste WahrscheinlichkeitenBearbeiten

Für bestimmte feste Wahrscheinlichkeiten   lassen sich die zugehörigen Quantile   durch die einfache Funktion des Stichprobenumfangs  

 

mit den Parametern   aus der Tabelle annähern, wobei   die Signum-Funktion bezeichnet, die einfach das Vorzeichen ihres Arguments darstellt:

  0,005 0,01 0,025 0,05 0,1 0,5 0,9 0,95 0,975 0,99 0,995
  −3,643 −3,298 −2,787 −2,34 −1,83 0 1,82 2,34 2,78 3,29 3,63
  1,8947 1,327 0,6 0,082 −0,348 −0,67 −0,58 −0,15 0,43 1,3 2
  −2,14 −1,46 −0,69 −0,24 0 0,104 −0,34 −0,4 −0,4 −0,3 0

Der Vergleich mit einer  -Tabelle zeigt ab   einen relativen Fehler unter 0,4 %, ab   unter 0,1 %. Da die  -Verteilung für große   in eine Normalverteilung mit Standardabweichung   übergeht, besitzt der Parameter   aus der Tabelle, der hier frei angepasst wurde, bei der entsprechenden Wahrscheinlichkeit   etwa die Größe des  -fachen des Quantils der Normalverteilung ( ), wobei   die Umkehrfunktion der Fehlerfunktion bedeutet.

Das 95 %-Konfidenzintervall für die Varianz der Grundgesamtheit aus dem Abschnitt Beispiel kann z. B. mit den beiden Funktionen   aus den Zeilen mit   und   auf einfache Weise als Funktion von   grafisch dargestellt werden.

Der Median befindet sich in der Spalte der Tabelle mit  .

LiteraturBearbeiten

  • Joachim Hartung, Bärbel Elpelt, Karl-Heinz Klösener: Statistik. 12. Auflage. Oldenbourg, 1999, ISBN 3-486-24984-3, S. 152 ff.

WeblinksBearbeiten

EinzelnachweiseBearbeiten

  1. R. Barlow: Statistics Wiley, 1989, S. 152 (Goodness of Fit).
  2. Kendall, Stuart: The Advanced Theory Of Statistics Vol. 2 Third Edition, London, 1973, S. 436 (Goodness of Fit).
  3. F. R. Helmert. In: Zeitschrift fuer Math. und Physik 21, 1876, S. 102–219. Karl Pearson: On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably Be Supposed to have Arisen from Random Sampling. In: Philosophical Magazine 5, Band 50, 1900, S. 157–175. Zitiert nach L. Schmetterer: Mathematische Statistik. Springer, Wien 1966, S. 93
  4. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 51.
  5. Wolfram Mathworld
  6. A. C. Davison: Statistical Models, Cambridge University Press 2008, ISBN 1-4672-0331-9, Kapitel 3.2
  7. Albert H. Nuttall: Some Integrals Involving the QM Function. In: IEEE Transactions on Information Theory. Nr. 21, 1975, S. 95–96, doi:10.1109/TIT.1975.1055327.
  8. Helmert. In: Astronomische Nachrichten, 88, 1876, S. 113–132
  9. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 51.