Hauptmenü öffnen

Wikipedia β

Dieser Artikel behandelt die Varianz als Kenngröße der Verteilung einer reellen Zufallsvariablen. Für die Varianz einer Stichprobe siehe Stichprobenvarianz, weitere Bedeutungen finden sich unter Varianz.
Dichtefunktionen zweier normalverteilter Zufallsvariablen mit gleichem Erwartungswert aber unterschiedlichen Varianzen. Die waagerechte Achse zeigt den Wert, die senkrechte die Häufigkeit. Da die rote Kurve schmaler um den Erwartungswert verläuft als die grüne, weist sie eine geringere Varianz auf. Die Quadratwurzel der Varianz, die Standardabweichung, kann bei der Normalverteilung an den Wendepunkten abgelesen werden.

In der Stochastik ist die Varianz (lat. variantia für „Verschiedenheit“) ein wichtiges Streuungsmaß und dient der Charakterisierung der Wahrscheinlichkeitsverteilung einer reellen Zufallsvariablen. Neben dem Erwartungswert ist die Varianz die zweite wichtige Kenngröße der Verteilung einer reellen Zufallsvariablen. Im Gegensatz zum Erwartungswert, der die Wahrscheinlichkeitsmasse balanciert, ist die Varianz ein Maß für die Streuung der Wahrscheinlichkeitsmasse um ihren Erwartungswert. Die Varianz beschreibt die erwartete quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert, wenn das Zufallsexperiment unendlich oft wiederholt wird. Damit stellt die Varianz das zweite zentrierte Moment der Zufallsvariablen dar.

Ein Nachteil der Varianz für praktische Anwendungen ist, dass sie eine andere Einheit als die Ursprungsdaten besitzt. Dieser Nachteil kann mit dem Konzept der Standardabweichung behoben werden, welches in enger Beziehung zum Konzept der Varianz steht. Die Standardabweichung ergibt sich als Quadratwurzel aus der Varianz.

Eine Verallgemeinerung der Varianz stellt die Kovarianz dar, da die Kovarianz einer Zufallsvariablen mit sich selbst die Varianz dieser Zufallsvariablen ergibt. Im Falle eines reellen Zufallsvektors verallgemeinert sich die Varianz zur Varianz-Kovarianz-Matrix, die auf der Hauptdiagonalen alle Varianzen beinhaltet und bei der die restlichen Elemente die paarweisen Kovarianzen darstellen.

Die Varianz weist viele nützliche Eigenschaften auf. Sie ist translationsinvariant und eine homogene Funktion zweiten Grades. Die Varianz einer Summe unkorrelierter Zufallsvariablen ist gleich der Summe ihrer Varianzen. Ein wichtiges Hilfsmittel zur Berechnung der Varianz stellt der Verschiebungssatz dar. Die Varianz kann mit einem Varianzschätzer, etwa ihrer induktiven Entsprechung, der Stichprobenvarianz, geschätzt werden.

Inhaltsverzeichnis

DefinitionBearbeiten

Es sei   eine beliebige reelle Zufallsvariable, die integrierbar ist, das heißt, es gilt  . Dann existiert ihr Erwartungswert  , und man definiert die Varianz von   wie folgt:

 .[1]

Ist   quadratisch integrierbar, gilt also  , so ist die Varianz endlich. Die Varianz wird auch als  ,   oder einfach als   notiert. Da die Varianz vor allem in älterer Literatur auch als Dispersion (lat. dispersio „Zerstreuung“, von dispergere „verteilen, ausbreiten, zerstreuen“) bezeichnet wurde, findet sich selten auch die Notation  . Die Notation mit dem Quadrat des griechischen Buchstaben Sigma   rührt daher, dass die Berechnung der Varianz der Dichtefunktion einer Normalverteilung genau dem Parameter   der Normalverteilung entspricht. Da die Normalverteilung in der Statistik eine sehr wichtige Rolle spielt, wird die Varianz im Allgemeinen mit   notiert (siehe auch Abschnitt Wichtige Varianzen).

Berechnung bei diskreten ZufallsvariablenBearbeiten

Eine reelle Zufallsvariable mit einem endlichen oder abzählbar unendlichen Wertebereich   wird diskret genannt. Ihre Varianz berechnet sich dann wie folgt:

 .

Hierbei ist   die Wahrscheinlichkeit, dass   den Wert   annimmt, und

 

ist der Erwartungswert von  . Die Summen erstrecken sich jeweils über alle Werte, die die Zufallsvariable   annehmen kann. Im Falle eines abzählbar unendlichen Wertebereiches ergibt sich eine unendliche Summe. In Worten berechnet sich die Varianz als Summe der Produkte der Wahrscheinlichkeiten der Realisationen der Zufallsvariablen   mit der jeweiligen quadrierten Distanz.

Berechnung bei stetigen ZufallsvariablenBearbeiten

Eine Zufallsvariable   wird als stetig bezeichnet, wenn das Merkmal alle Werte in einem Intervall der reellen Zahlen annehmen kann. Für stetige Zufallsvariablen verwendet man eine Wahrscheinlichkeitsdichtefunktion  , um Wahrscheinlichkeiten über einem Intervall zu berechnen. Für die Varianz dieser stetigen Zufallsvariablen gilt:

 ,

wobei für den Erwartungswert dieser stetigen Zufallsvariablen gilt

 [2]

Die Varianz berechnet sich also als Integral über das Produkt der quadrierten Distanz zwischen der Realisation der Zufallsvariablen   und dem Erwartungswert   und der Dichtefunktion der Verteilung. Die Formeln für den diskreten und stetigen Fall zeigen, dass man nur Kenntnis der Wahrscheinlichkeitsverteilung von   (in Form der Größen   beziehungsweise  ) benötigt, um den Erwartungswert und die Varianz zu berechnen.

Varianz als Kenngröße einer WahrscheinlichkeitsverteilungBearbeiten

Jede Wahrscheinlichkeitsverteilung beziehungsweise Zufallsvariable kann durch sogenannte Kenngrößen (Parameter) beschrieben werden, die diese Verteilung charakterisieren. Die Varianz und der Erwartungswert sind die wichtigsten Kenngrößen einer Wahrscheinlichkeitsverteilung. Sie werden bei einer Zufallsvariablen als Zusatzinformationen wie folgt angegeben:  . Sprich: Die Zufallsvariable   folgt einer (hier nicht näher spezifizierten) Verteilung mit Erwartungswert   und Varianz  . Es sei angenommen die Zufallsvariable folge einer Standardnormalverteilung, dass heißt:  . Der Erwartungswert von   ist also Null und die Varianz Eins. Weitere wichtige Kenngrößen einer Wahrscheinlichkeitsverteilung stellen neben den Momenten beispielsweise der Median, der Modus oder Quantile dar.[3]

InterpretationBearbeiten

Die Varianz stellt neben dem Erwartungswert das zweite zentrierte Moment der Zufallsvariablen dar. Der Begriff Moment stammt originär aus der Physik. Das erste Moment, der Erwartungswert, entspricht dem physikalischen Schwerpunkt. Im Gegensatz zum Erwartungswert, der also die Wahrscheinlichkeitsmasse balanciert, ist die Varianz ein Maß für die Streuung der Wahrscheinlichkeitsmasse um ihren Schwerpunkt. Die Distanz zwischen zwei Punkten   und   auf der reellen Zahlengeraden ist gegeben durch  . Wenn man jetzt definiert, dass ein Punkt die Zufallsvariable   ist und der andere  , dann gilt   und die quadrierte Distanz lautet  . Folglich wird   als die mittlere (oder erwartete) quadrierte Distanz zwischen der Realisation der Zufallsvariablen   und dem Erwartungswert   interpretiert, wenn das Zufallsexperiment unendlich oft wiederholt wird.[4] Die Varianz beschreibt also die Breite einer Dichtefunktion. Die Breite wiederum ist ein Maß für die Unsicherheit, die mit einer Zufallsvariablen verbunden ist. Je schmaler die Dichtefunktion ist, desto genauer kann der Wert von   vorhergesagt werden. Folglich beschreibt die Varianz, wie „stochastisch“ oder, wie „deterministisch“ ein betrachtetes Phänomen ist. Bei einer großen Varianz liegt eher eine stochastische Situation vor und bei einer kleinen Varianz eher eine deterministische. Bei dem Spezialfall, bei dem die Varianz gleich Null ist, liegt eine vollständig deterministische Situation vor.

RechenregelnBearbeiten

VerschiebungssatzBearbeiten

Varianzen lassen sich oft einfacher mit Hilfe des Verschiebungssatzes als nicht-zentrierte Momente darstellen:

 .[5]

Vor der Anwendung des Verschiebungssatzes heißen Momente solcher Art „zentriert“, weil sie auf den Erwartungswert (das „Zentrum“) bezogen sind ( ). Der Verschiebungssatz erleichtert die Berechnung der Varianz, da hierzu außer dem Erwartungswert von   nur noch der Erwartungswert von   bestimmt werden muss. Eine allgemeinere Darstellung des Verschiebungssatzes ergibt sich aus:

 .

Für das vorliegen diskreter Zufallsvariablen ergibt der Verschiebungssatz:

 

Am Computer ist diese Art der Berechnung aber zu vermeiden, da es bei der Verwendung von Fließkommazahlen leicht zu katastrophaler Auslöschung kommen kann.

Für das vorliegen stetiger Zufallsvariablen ergibt der Verschiebungssatz:

 .

Lineare TransformationBearbeiten

Für Skalare   und   gilt:

  • Die Varianz eines Skalar ist Null, da dieses per Definition nicht zufällig ist und somit auch nicht streut:  
  • Skalare können quadriert aus der Varianz herausgezogen werden:  . Dies liegt daran, dass die Varianz einer homogene Funktion zweiten Grades ist
  • Zusammengefasst:  

Dies kann mittels des Verschiebungssatzes hergeleitet werden:[6]

 

Insbesondere für   folgt

 

Beziehung zur KovarianzBearbeiten

Die Kovarianz  , welche die gemeinsame Variabilität von zwei Zufallsvariablen misst, steht mit der Varianz in folgender Beziehung:

 .

Die Varianz ist demnach die Kovarianz einer Zufallsvariablen mit sich selbst. Diese Beziehung folgt direkt aus den Definitionen der Varianz und Kovarianz. Des Weiteren gilt die Cauchy-Schwarzsche Ungleichung:

 ,

da die Kovarianz eine positiv semidefinite Bilinearform ist.

Varianz von Summen von ZufallsvariablenBearbeiten

Für die Varianz einer beliebigen Summe von Zufallsvariablen   gilt allgemein:

 

Hierin bezeichnet   die Kovarianz der Zufallsvariablen   und   und es wurde verwendet, dass   gilt. Speziell für zwei Zufallsvariablen   und   ergibt sich beispielsweise

 .

Sind die beiden Zufallsvariablen unkorreliert, das heißt ihre Kovarianz ist Null, dann folgt:

 [7]

beziehungsweise allgemeiner, wenn   Zufallsvariablen paarweise unkorreliert sind, das heißt ihre Kovarianzen alle gleich Null sind:

 .

Dieses Resultat wird auch als Gleichung von Bienaymé bezeichnet.[8] Sie gilt insbesondere dann, wenn die Zufallsvariablen unabhängig sind, denn aus Unabhängigkeit folgt Unkorreliertheit.

Charakteristische FunktionBearbeiten

Die Varianz einer Zufallsvariablen   lässt sich auch mit Hilfe ihrer charakteristischen Funktion :  darstellen.

Wegen   und   folgt nämlich mit dem Verschiebungssatz:

 .

Momenterzeugende FunktionBearbeiten

Da für die momenterzeugenden Funktion   der Zusammenhang

 

gilt, lässt sich die Varianz damit auf folgende Weise berechnen:

 .

Wahrscheinlichkeitserzeugende FunktionBearbeiten

Auch mit der wahrscheinlichkeitserzeugenden Funktion

 ,

lässt sich für diskrete   die Varianz berechnen. Es gilt dann

 ,

falls der linksseitige Grenzwert existiert.

Kumulantenerzeugende FunktionBearbeiten

Die kumulantenerzeugende Funktion einer Zufallsvariable ist definiert als:

 .

Leitet man sie zweimal ab und wertet sie an der Stelle 0 aus, so erhält man die Varianz:

 .

Die zweite Kumulante ist also die Varianz.

Varianz einer zusammengesetzten ZufallsvariableBearbeiten

Ist   eine zusammengesetzte Zufallsvariable, sprich sind   unabhängige Zufallsvariablen und sind die   identisch verteilt und ist   auf   definiert, so lässt sich   darstellen als:

 .

Existieren die zweiten Momente von  , so gilt:

 .

Diese Aussage ist auch als Blackwell-Girshick-Gleichung bekannt.

BeispieleBearbeiten

Diskrete ZufallsvariableBearbeiten

Gegeben ist eine diskrete Zufallsvariable  , welche die Werte  ,   und   mit je den Wahrscheinlichkeiten  ,   und   annimmt. Diese Werte lassen sich in folgender Tabelle zusammenfassen

         
         

Der Erwartungswert beträgt nach obiger Definition

 .

Die Varianz ist demnach gegeben durch

 .

Mit dem Verschiebungssatz erhält man ebenfalls den gleichen Wert für die Varianz:

 .

Für die Standardabweichung ergibt sich damit:

 .

Stetige ZufallsvariableBearbeiten

Eine stetige Zufallsvariable habe die Dichtefunktion

 ,

mit dem Erwartungswert von  

 

und dem Erwartungswert von  

 .

Die Varianz dieser Dichtefunktion berechnet sich mit Hilfe des Verschiebungssatzes als:

 .

Wichtige VarianzenBearbeiten

Verteilung Stetig/diskret Wahrscheinlichkeitsfunktion Varianz
Normalverteilung Stetig    
Bernoulli-Verteilung Diskret    
Binomialverteilung Diskret    
Stetige Gleichverteilung Diskret    

Bedingte VarianzenBearbeiten

Hauptartikel: Bedingte Varianz

Analog zu bedingten Erwartungswerten lassen sich beim Vorliegen von Zusatzinformationen, wie beispielsweise den Werten einer weiteren Zufallsvariablen, bedingte Varianzen betrachten. Es seien   und   zwei reelle Zufallsvariable auf einem Wahrscheinlichkeitsraum  , dann heißt

 

die bedingte Varianz von   gegeben   (oder Varianz von   bedingt auf  ). Im stetigen Fall ist die bedingte Varianz definiert durch

 ,

wobei   der bedingte Erwartungswert und   die bedingte Dichte darstellt. Für diskrete Zufallsvariablen entsprechend:

 .

VerallgemeinerungenBearbeiten

Im Falle eines reellen Zufallsvektors   mit quadratisch integrierbaren Komponenten verallgemeinert sich die Varianz zu der Kovarianzmatrix eines Zufallsvektors:

 .[9]

Dabei ist   der Vektor der Erwartungswerte.[10] Der Eintrag der  -ten Zeile und  -ten Spalte der Kovarianzmatrix ist  . In der Diagonale stehen also die Varianzen   der einzelnen Komponenten.

Verwandte BegriffeBearbeiten

Fasst man die Varianz als Streuungsmaß der Verteilung einer Zufallsvariable auf, so ist sie mit den folgenden Streuungsmaßen verwandt:

In der Statistik gibt es noch weitere empirische Streuungsmaße, die sich aber nicht alle sinnvoll für Verteilungen definieren lassen.

WeblinksBearbeiten

EinzelnachweiseBearbeiten

  1. L. Fahrmeir, R. Künstler, et al.: Statistik. Der Weg zur Datenanalyse. 8. Auflage, S.232
  2. L. Fahrmeir, R. Künstler, et al.: Statistik. Der Weg zur Datenanalyse. 8. Auflage, S.283
  3. Bayer, Hackel: Wahrscheinlichkeitsrechnung und mathematische Statistik, S.58
  4. G. Judge und R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998, S. 40
  5. Ansgar Steland: Basiswissen Statistik, S.116
  6. L. Fahrmeir, R. Künstler, et al.: Statistik. Der Weg zur Datenanalyse. 8. Auflage, S.233
  7. L. Fahrmeir, R. Künstler, et al.: Statistik. Der Weg zur Datenanalyse. 8. Auflage, S.233
  8. Loeve, M. (1977) "Probability Theory", Graduate Texts in Mathematics, Volume 45, 4. Auflage, Springer-Verlag, S. 12.
  9. G. Judge und R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998, S. 43
  10. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 646