Stichprobenvarianz (Schätzfunktion)

Die Stichprobenvarianz ist eine Schätzfunktion und messbare Abbildung in der mathematischen Statistik. Ihre zentrale Aufgabe ist es, die unbekannte Varianz einer zugrundeliegenden Wahrscheinlichkeitsverteilung zu schätzen. Außerhalb der Schätztheorie findet sie auch als Hilfsfunktion zur Konstruktion von Konfidenzbereichen und statistischen Tests Verwendung.

Formelzeichen
Mittelwert der Grundgesamtheit
Varianz der Grundgesamtheit
Anzahl der gegebenen Werte
Zufallsvariablen (Zufallsgrößen)
Stichprobe: beobachtete Werte der Zufallsvariablen
Stichprobenmittel / empirischer Mittelwert von
Stichprobenvarianz / empirische Varianz von
Stichprobenmittel (als Funktion der Zufallsvariablen)
Stichprobenvarianz (als Funktion der Zufallsvariablen)
Erwartungswert: Mittelwert, der sich aus der Verteilungsfunktion von X ergibt
Varianz (Stochastik): Varianz, die sich aus der Verteilungsfunktion von X ergibt

Die Stichprobenvarianz wird in mehreren Varianten definiert, die sich leicht bezüglich ihrer Eigenschaften und somit auch ihrer Anwendungsgebiete unterscheiden. Die Unterscheidung der unterschiedlichen Bezeichnungen für die Varianten ist in der Literatur nicht immer einheitlich. Wird daher lediglich von "der" Stichprobenvarianz gesprochen, so sollte immer überprüft werden, welche der Definitionen im entsprechenden Kontext gilt.

Stichprobenvarianz (Schätzfunktion) ist zu unterscheiden von der konkreten Berechnung der Varianz einer Stichprobe: Die empirische Varianz wird ebenfalls oft als Stichprobenvarianz bezeichnet, ist aber keine Funktion, sondern ein Streumaß von mehreren numerischen (Stichproben-)werten. Sie entspricht einem konkreten Schätzwert und ist damit eine Realisierung der Stichprobenvarianz als Schätzfunktion und Zufallsvariable.

DefinitionBearbeiten

Zur Schätzung des Erwartungswertes   und der Varianz   einer Grundgesamtheit liegen   Zufallsvariablen   und sei  . In der Anwendung sind die   die Stichprobenvariablen. Es bezeichne

 

das Stichprobenmittel.

Zuerst ist der Erwartungswert zu schätzen, welcher hier in Form des Parameters   vorliegt. Mit Hilfe des Kleinste-Quadrate-Kriteriums[1]

 

erhält man die Schätzung   des Erwartungswertes als Stichprobenmittel:

 .

Da durch die Schätzung des Stichprobenmittels ein Freiheitsgrad verbraucht wird, ist es üblich die empirische Varianz mit dem Faktor   zu „korrigieren“. In der Literatur finden sich im Wesentlichen drei unterschiedliche Definitionen der Stichprobenvarianz. Viele Autoren nennen

 

die Stichprobenvarianz[2][3][4] oder zur besseren Abgrenzung die korrigierte Stichprobenvarianz.[5] Alternativ wird auch

 

als Stichprobenvarianz bezeichnet[6][3], ebenso wird auch

 

für eine fixe reelle Zahl   Stichprobenvarianz genannt.[7]

VerwendungBearbeiten

Wichtiger Verwendungszweck der Stichprobenvarianz ist die Schätzung der Varianz einer unbekannten Wahrscheinlichkeitsverteilung. Je nach Rahmenbedingungen kommen dabei die verschiedenen Definitionen zum Einsatz, da diese unterschiedliche Optimalitätskriterien erfüllen (siehe unten). Als Faustregel kann gelten:

  • Sind der Erwartungswert und die Varianz des Wahrscheinlichkeitsmaßes unbekannt, so wird   als Schätzfunktion verwendet.
  • Ist die Varianz unbekannt und entspricht der Erwartungswert dem Wert  , so wird   als Schätzfunktion verwendet.

Die Schätzfunktion   wird meist nicht verwendet, sie entsteht beispielsweise bei Verwendung der Momentenmethode oder der Maximum-Likelihood-Methode und erfüllt die gängigen Qualitätskriterien nicht.

Neben der Verwendung als Schätzfunktion wird die Stichprobenvarianz noch als Hilfsfunktion für die Konstruktion von Konfidenzintervallen oder statistischen Tests verwendet. Dort findet sie sich zum Beispiel als Pivotstatistik zur Konstruktion von Konfidenzintervallen im Normalverteilungsmodell oder als Teststatistik bei dem Chi-Quadrat-Test.

EigenschaftenBearbeiten

RahmenbedingungenBearbeiten

Meist wird die Stichprobenvarianz unter den Annahmen verwendet, dass die Auswertungen unabhängig und identisch verteilt sind sowie entweder einen bekannten oder einen unbekannten Erwartungswert besitzen. Diese Annahmen werden durch die folgenden statistischen Modelle beschrieben:

  • Ist der Erwartungswert unbekannt, so ist das statistische Modell gegeben durch das (nicht notwendigerweise parametrische) Produktmodell
 .
Hierbei bezeichnet   das n-fache Produktmaß von   und   ist die Familie aller Wahrscheinlichkeitsmaße mit endlicher Varianz, die mit einer beliebigen Indexmenge   indiziert sind. Die Stichprobenvariablen   sind dann unabhängig identisch verteilt gemäß   und besitzen also eine endliche Varianz.
  • Ist der Erwartungswert bekannt und gleich  , so ist das statistische Modell gegeben durch das (nicht notwendigerweise parametrische) Produktmodell
 .
Hierbei bezeichnet   die Familie aller Wahrscheinlichkeitsmaße mit endlicher Varianz und Erwartungswert  , die mit einer beliebigen Indexmenge   indiziert sind. Die Stichprobenvariablen   sind dann unabhängig identisch verteilt gemäß   und besitzen somit eine endliche Varianz und den Erwartungswert  .

ErwartungstreueBearbeiten

Bekannter ErwartungswertBearbeiten

Im Falle des bekannten Erwartungswertes ist   ein erwartungstreuer Schätzer für die Varianz. Das bedeutet es gilt

 .

Hierbei bezeichnet   bzw.   die Erwartungswertbildung bzw. die Varianzbildung bezüglich des Wahrscheinlichkeitsmaßes  .

Die Erwartungstreue gilt, da

 

ist. Hierbei folgt der erste Schritt aus der Linearität des Erwartungswertes, der zweite, da nach Voraussetzung über den bekannten Erwartungswert   ist und somit   gilt nach Definition der Varianz. In den dritten Schritt geht ein, dass die   alle identisch verteilt sind.

Unbekannter ErwartungswertBearbeiten

Im Falle des unbekannten Erwartungswertes ist   eine erwartungstreue Schätzfunktion für die Varianz, es gilt also

 

Im Gegensatz dazu ist   nicht erwartungstreu, denn es gilt

 .

Der Schätzer   ist aber noch asymptotisch erwartungstreu. Dies folgt direkt aus der obigen Darstellung, denn es ist

 .
Herleitung der Erwartungstreue

Beachte dazu zuerst, dass aufgrund der Unabhängigkeit

 

gilt und aufgrund der identischen Verteilungen

  für alle   und somit  .

Daraus folgt direkt

 

aufgrund von   und   im letzten Schritt und unter Verwendung der Linearität des Erwartungswertes.

Analog folgt, weil auch   identisch verteilt sind (insbesondere also   für alle  ),

 

wieder mithilfe von   und   im dritten Schritt.

Mithilfe von   und   im zweiten Schritt sowie von   im dritten Schritt ist dann

 

Die letzte Gleichheit folgt hier nach dem Verschiebungssatz. Daraus folgt dann

 

und analog

 .

Bessel-KorrekturBearbeiten

Direkt aus der Definition folgt der Zusammenhang

 

Der Faktor   wird hierbei als Bessel-Korrektur (nach Friedrich Wilhelm Bessel) bezeichnet.[8] Er kann insofern als Korrekturfaktor verstanden werden, da er   so korrigiert, dass die Schätzfunktion erwartungstreu wird. Dies folgt, da wie oben gezeigt

 .

und die Bessel-Korrektur genau der Kehrwert des Faktors   ist. Die Schätzfunktion   geht somit aus   durch die Bessel-Korrektur hervor.

StichprobenstandardabweichungBearbeiten

Sind die   Zufallsvariablen   unabhängig und identisch verteilt, also beispielsweise eine Stichprobe, so ergibt sich die Standardabweichung der Grundgesamtheit der Stichprobe als Wurzel aus der Stichprobenvarianz   bzw.  , also

 

oder

 

mit

 

wird Stichprobenstandardabweichung oder Stichprobenstreuung genannt[9], ihre Realisierungen entsprechen der empirischen Standardabweichung. Da die Erwartungstreue bei Anwendung einer nichtlinearen Funktion wie der Wurzel in den meisten Fällen verloren geht, ist die Stichprobenstandardabweichung im Gegensatz zur korrigierten Stichprobenvarianz in keinem der beiden Fälle ein erwartungstreuer Schätzer für die Standardabweichung.

Schätzung der Standardabweichung der Grundgesamtheit aus einer StichprobeBearbeiten

Die korrigierte Stichprobenvarianz   ist ein erwartungstreuer Schätzer für die Varianz   der Grundgesamtheit. Im Gegensatz dazu ist aber   kein erwartungstreuer Schätzer für die Standardabweichung. Da die Quadratwurzel eine konkave Funktion ist, folgt aus der Jensenschen Ungleichung zusammen mit der Erwartungstreue von  

 .

Dieser Schätzer unterschätzt also in den meisten Fällen die Standardabweichung der Grundgesamtheit.

BeispielBearbeiten

Wählt man eine der Zahlen   oder   durch Wurf einer fairen Münze, also beide mit Wahrscheinlichkeit jeweils  , so ist das eine Zufallsgröße mit Erwartungswert 0, Varianz   und Standardabweichung  . Berechnet man aus   unabhängigen Würfen   und   die korrigierte Stichprobenvarianz

 

wobei

 

den Stichprobenmittelwert bezeichnet, so gibt es vier mögliche Versuchsausgänge, die alle jeweils Wahrscheinlichkeit   haben:

         
         
         
         
         

Der Erwartungswert der korrigierten Stichprobenvarianz beträgt daher

 .

Die korrigierte Stichprobenvarianz ist demnach also tatsächlich erwartungstreu. Der Erwartungswert der korrigierten Stichprobenstandardabweichung beträgt hingegen

 .

Die korrigierte Stichprobenstandardabweichung unterschätzt also die Standardabweichung der Grundgesamtheit.

Berechnung für auflaufende MesswerteBearbeiten

In Systemen, die kontinuierlich große Mengen an Messwerten erfassen, ist es oft unpraktisch, alle Messwerte zwischenzuspeichern, um die Standardabweichung zu berechnen.

In diesem Zusammenhang ist es günstiger, eine modifizierte Formel zu verwenden, die den kritischen Term   umgeht. Dieser kann nicht für jeden Messwert sofort berechnet werden, da der Mittelwert   nicht konstant ist.

Durch Anwendung des Verschiebungssatzes und der Definition des Mittelwerts   gelangt man zur Darstellung

 

bzw.

 

die sich für jeden eintreffenden Messwert sofort aktualisieren lässt, wenn die Summe der Messwerte   sowie die Summe ihrer Quadrate   mitgeführt und fortlaufend aktualisiert werden. Diese Darstellung ist allerdings numerisch weniger stabil, insbesondere kann der Term unter der Quadratwurzel numerisch durch Rundungsfehler kleiner als 0 werden.

Durch geschicktes Umstellen lässt sich für letztere Gleichung eine Form finden, die numerisch stabiler ist und auf die Varianz   und den Mittelwert   des vorhergehenden sowie auf den Stichprobenwert   und den Mittelwert   des aktuellen Iterationsschrittes   zurückgreift:

 

Normalverteilte ZufallsgrößenBearbeiten

BerechnungsgrundlagenBearbeiten

Für den Fall normalverteilter Zufallsgrößen lässt sich allerdings ein erwartungstreuer Schätzer angeben:[10]

 

Dabei ist   die Schätzung der Standardabweichung und   die Gammafunktion. Die Formel folgt, indem man beachtet, dass   eine Chi-Quadrat-Verteilung mit   Freiheitsgraden hat.

Korrekturfaktoren für die erwartungstreue Schätzung der Standardabweichung
Stichprobenumfang Korrekturfaktor
2 1,253314
5 1,063846
10 1,028109
15 1,018002
25 1,010468
BeispielBearbeiten

Es wurden bei einer Stichprobe aus einer normalverteilten Zufallsgröße die fünf Werte 3, 4, 5, 6, 7 gemessen. Man soll nun die Schätzung für die Standardabweichung errechnen.

Die Stichprobenvarianz ist:

 

Der Korrekturfaktor ist in diesem Fall

 

und die erwartungstreue Schätzung für die Standardabweichung ist damit näherungsweise

 

LiteraturBearbeiten

EinzelnachweiseBearbeiten

  1. L. Fahrmeir, R. Künstler, I. Pigeot, G. Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin/ Heidelberg 2016, ISBN 978-3-662-50371-3, S. 351.
  2. Claudia Czado, Thorsten Schmidt: Mathematische Statistik. Springer-Verlag, Berlin Heidelberg 2011, ISBN 978-3-642-17260-1, S. 5, doi:10.1007/978-3-642-17261-8.
  3. a b Eric W. Weisstein: Sample Variance. In: MathWorld (englisch).
  4. Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 3, doi:10.1007/978-3-642-41997-3.
  5. Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 208, doi:10.1515/9783110215274.
  6. Hans-Otto Georgii: Stochastik. Einführung in die Wahrscheinlichkeitstheorie und Statistik. 4. Auflage. Walter de Gruyter, Berlin 2009, ISBN 978-3-11-021526-7, S. 207, doi:10.1515/9783110215274.
  7. M.S. Nikulin: Sample variance. In: Michiel Hazewinkel (Hrsg.): Encyclopedia of Mathematics. Springer-Verlag und EMS Press, Berlin 2002, ISBN 978-1-55608-010-4 (englisch, online).
  8. Eric W. Weisstein: Bessels Correction. In: MathWorld (englisch).
  9. Ludger Rüschendorf: Mathematische Statistik. Springer Verlag, Berlin Heidelberg 2014, ISBN 978-3-642-41996-6, S. 27, doi:10.1007/978-3-642-41997-3.
  10. Eric Weisstein: Standard Deviation Distribution. In: MathWorld (englisch).