Anzahl der Freiheitsgrade (Statistik)

Angabe, wie viele Werte in einer Statistik frei variieren dürfen

In der Statistik gibt die Anzahl der Freiheitsgrade (englisch number of degrees of freedom, kurz df oder dof) an, wie viele Werte in einer Berechnungsformel (genauer: Statistik) frei variieren dürfen.

Schätzungen statistischer Parameter können auf unterschiedlichen Mengen an Informationen oder Daten basieren. Die Anzahl unabhängiger Information, die in die Schätzung eines Parameters einfließen, wird als Anzahl der Freiheitsgrade bezeichnet. Im Allgemeinen sind die Freiheitsgrade einer Schätzung eines Parameters gleich der Anzahl unabhängiger Einzelinformationen, die in die Schätzung einfließen, abzüglich der Anzahl der zu schätzenden Parameter, die als Zwischenschritte bei der Schätzung des Parameters selbst verwendet werden. Beispielsweise fließen Werte in die Berechnung der Stichprobenvarianz ein. Dennoch lautet die Anzahl der Freiheitsgrade , da als Zwischenschritt der Mittelwert geschätzt wird und somit ein Freiheitsgrad verloren geht.

Definition Bearbeiten

Die Anzahl   der unabhängigen Beobachtungswerte abzüglich der Anzahl der schätzbaren Parameter   wird als Anzahl der Freiheitsgrade   bezeichnet. Da es in einem multiplen linearen Regressionsmodell   Parameter mit   Steigungsparametern   und einem Niveauparameter   gibt, kann man schreiben

 .

Die Freiheitsgrade kann man auch als Anzahl der „überflüssigen“ Messungen interpretieren, die nicht zur Bestimmung der Parameter benötigt werden.[1]

Die Freiheitsgrade werden bei der Schätzung von Varianzen benötigt. Außerdem sind verschiedene Wahrscheinlichkeitsverteilungen, mit denen anhand der Stichprobe Hypothesentests durchgeführt werden, von den Freiheitsgraden abhängig.

Beispiele Bearbeiten

Beim Erwartungswert der Residuenquadratsumme Bearbeiten

Für die Schätzung der Störgrößenvarianz wird die Residuenquadratsumme

 

benötigt. Der erwartungstreue Schätzer für die Störgrößenvarianz ist im multiplen linearen Regressionsmodell

 ,

da  . Die Residuenquadratsumme hat   Freiheitsgrade, entsprechend der Anzahl der unabhängigen Residuen. Der Erwartungswert der Residuenquadratsumme ist aufgrund der Formel für die erwartungstreue Störgrößenvarianz gegeben durch

 .

Um intuitiv herausfinden zu können, warum die Anpassung der Freiheitsgrade notwendig ist, kann man die Bedingungen erster Ordnung für die KQ-Schätzer betrachten. Diese können als

 

und

 

ausgedrückt werden. Beim Erhalten der KQ-Schätzer werden somit den KQ-Residuen   Restriktionen auferlegt. Dies bedeutet, dass bei gegebenen   Residuen die verbleibenden   Residuen bekannt sind: In den Residuen gibt es folglich nur   Freiheitsgrade (Im Gegensatz dazu gibt es in den wahren Störgrößen   n Freiheitsgrade in der Stichprobe.)

Eine verzerrte Schätzung, die nicht die Anzahl der Freiheitsgrade berücksichtigt ist die Größe

 .

Den Schätzer bekommt man bei Anwendung der Maximum-Likelihood-Schätzung.

Bei der empirischen Varianz Bearbeiten

Für eine erwartungstreue Schätzung der Varianz der Grundgesamtheit wird die Quadratsumme von   durch die Anzahl der Freiheitsgrade geteilt und man erhält die Stichprobenvarianz (Schätzfunktion)

 .

Da diese Varianz erwartungstreu ist, gilt für sie  . Das empirische Pendant zu dieser Varianz ist die empirische Varianz

 

Intuitiv lässt sich bei der empirischen Varianz die Mittelung durch   statt durch   bei der modifizierten Form der empirischen Varianz wie folgt erklären: Aufgrund der Schwerpunkteigenschaft des empirischen Mittels   ist die letzte Abweichung   bereits durch die ersten   bestimmt. Folglich variieren nur   Abweichungen frei und man mittelt deshalb, indem man durch die Anzahl der Freiheitsgrade   dividiert.[2]

Anzahl der Freiheitsgrade von wichtigen Quadratsummen Bearbeiten

Die folgende Tafel der Varianzanalyse zeigt die Anzahl der Freiheitsgrade einiger wichtiger Quadratsummen im multiplen linearen Regressionsmodell  :[3]

Variationsquelle Abweichungsquadratsummen Anzahl der Freiheitsgrade mittlere Abweichungsquadrate
Regression    
Residual   (n-k)  
Total      

Diese Quadratsummen spielen bei der Berechnung des Bestimmtheitsmaßes eine große Rolle.

Freiheitsgrade als Parameter von Verteilungen Bearbeiten

Die Anzahl der Freiheitsgrade ist auch Parameter mehrerer Verteilungen. Wenn die Beobachtungen normalverteilt sind, dann folgt der Quotient aus der Residuenquadratsumme   und der Störgrößenvarianz   einer Chi-Quadrat-Verteilung mit   Freiheitsgraden:

 .

Die Größe   folgt einer Chi-Quadrat-Verteilung mit   Freiheitsgraden, weil die Anzahl der Freiheitsgrade der Chi-Quadrat-Verteilung der Spur der Projektionsmatrix   entspricht, also

 

Für die Spur von   gilt  . Weitere von der Anzahl der Freiheitsgrade abhängige Verteilungen sind die t-Verteilung und die F-Verteilung. Diese Verteilungen werden für die Schätzung von Konfidenzintervallen der Parameter und für Hypothesentests benötigt.[4]

Eine weitere wichtige Größe, die für die statistische Inferenz benötigt wird und deren Verteilung von Freiheitsgraden abhängt, ist die t-Statistik. Man kann zeigen, dass die Größe

 

einer t-Verteilung mit   Freiheitsgraden folgt (siehe Testen allgemeiner linearer Hypothesen).

Einzelnachweise Bearbeiten

  1. Berhold Witte, Hubert Schmidt: Vermessungskunde und Grundlagen der Statistik für das Bauwesen. 2. Auflage. Wittwer, Stuttgart 1989, ISBN 3-87919-149-2, S. 59.
  2. Fahrmeir, L.; Künstler, R.; Pigeot, I.; Tutz, G.: Statistik. Der Weg zur Datenanalyse. 8. Auflage, S. 65
  3. William H. Greene: Econometric Analysis. 5. Auflage. Prentice Hall International, 2002, ISBN 0-13-110849-2, S. 33.
  4. Karl-Rudolf Koch: Parameterschätzung und Hypothesentests. 3. Auflage. Dümmler, Bonn 1997, ISBN 3-427-78923-3.