Hauptmenü öffnen

Wikipedia β

Normalverteilung
Dichtefunktion
Normal Distribution PDF.svg Dichtefunktionen der Normalverteilung :
(blau), (rot), (gelb) und (grün)
Verteilungsfunktion
Normal-distribution-cumulative-density-function-many.svg Verteilungsfunktionen der Normalverteilungen
(blau), (rot), (gelb) und (grün)
Parameter – Erwartungswert
– Varianz
Träger
Dichtefunktion
Verteilungsfunktion
– mit Fehlerfunktion erf(x)
Erwartungswert
Median
Modus
Varianz
Schiefe
Wölbung
Entropie
Momenterzeugende Funktion
Charakteristische Funktion
Fisher-Information

Die Normal- oder Gauß-Verteilung (nach Carl Friedrich Gauß) ist ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichte wird auch Gauß-Funktion, Gaußsche Normalverteilung, Gaußsche Verteilungskurve, Gauß-Kurve, Gaußsche Glockenkurve, Gaußsche Glockenfunktion, Gauß-Glocke oder schlicht Glockenkurve genannt.

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, dem zufolge Verteilungen, die durch Überlagerung einer großen Zahl von unabhängigen Einflüssen entstehen, unter schwachen Voraussetzungen annähernd normalverteilt sind.

Die Abweichungen der Messwerte vieler natur-, wirtschafts- und ingenieurswissenschaftlicher Vorgänge vom Mittelwert lassen sich durch die Normalverteilung (bei biologischen Prozessen oft logarithmische Normalverteilung) entweder exakt oder wenigstens in sehr guter Näherung beschreiben (vor allem Prozesse, die in mehreren Faktoren unabhängig voneinander in verschiedene Richtungen wirken).

Zufallsgrößen mit Normalverteilung benutzt man zur Beschreibung zufälliger Vorgänge wie:

In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen.

In der Messtechnik wird häufig eine Normalverteilung angesetzt, die die Streuung der Messfehler beschreibt. Hierbei ist von Bedeutung, wie viele Messpunkte innerhalb einer gewissen Streubreite liegen.

Die Standardabweichung beschreibt die Breite der Normalverteilung. Die Halbwertsbreite einer Normalverteilung ist das ungefähr 2,4-Fache (genau ) der Standardabweichung. Es gilt näherungsweise:

  • Im Intervall der Abweichung vom Mittelwert sind 68,27 % aller Messwerte zu finden,
  • Im Intervall der Abweichung vom Mittelwert sind 95,45 % aller Messwerte zu finden,
  • Im Intervall der Abweichung vom Mittelwert sind 99,73 % aller Messwerte zu finden.

Und ebenso lassen sich umgekehrt für gegebene Wahrscheinlichkeiten die maximalen Abweichungen vom Mittelwert finden:

  • 50 % aller Messwerte haben eine Abweichung von höchstens vom Mittelwert,
  • 90 % aller Messwerte haben eine Abweichung von höchstens vom Mittelwert,
  • 95 % aller Messwerte haben eine Abweichung von höchstens vom Mittelwert,
  • 99 % aller Messwerte haben eine Abweichung von höchstens vom Mittelwert.

Somit kann neben dem Mittelwert auch der Standardabweichung eine einfache Bedeutung zugeordnet werden.

Inhaltsverzeichnis

GeschichteBearbeiten

 
Gaußsche Glockenkurve auf einem deutschen Zehn-Mark-Schein der 1990er Jahre

Im Jahre 1733 zeigte Abraham de Moivre in seiner Schrift The Doctrine of Chances im Zusammenhang mit seinen Arbeiten am Grenzwertsatz für Binomialverteilungen eine Abschätzung des Binomialkoeffizienten, die als Vorform der Normalverteilung gedeutet werden kann.[1] Die für die Normierung der Normalverteilungsdichte zur Wahrscheinlichkeitsdichte notwendige Berechnung des nichtelementaren Integrals

 

gelang Pierre-Simon Laplace im Jahr 1782 (nach anderen Quellen Poisson). Im Jahr 1809 publizierte Gauß sein Werk Theoria motus corporum coelestium in sectionibus conicis solem ambientium (dt.: Theorie der Bewegung der in Kegelschnitten sich um die Sonne bewegenden Himmelskörper), das neben der Methode der kleinsten Quadrate und der Maximum-Likelihood-Schätzung die Normalverteilung definiert. Ebenfalls Laplace war es, der 1810 den Satz vom zentralen Grenzwert bewies, der die Grundlage der theoretischen Bedeutung der Normalverteilung darstellt und de Moivres Arbeit am Grenzwertsatz für Binomialverteilungen abschloss. Adolphe Quetelet erkannte schließlich bei Untersuchungen des Brustumfangs von mehreren tausend Soldaten im Jahr 1844 eine verblüffende Übereinstimmung mit der Normalverteilung und brachte die Normalverteilung in die angewandte Statistik. Er hat vermutlich die Bezeichnung „Normalverteilung“ geprägt.[2]

DefinitionBearbeiten

Eine stetige Zufallsvariable   mit der Wahrscheinlichkeitsdichte  , gegeben durch[3]

 

heißt  -verteilt, normalverteilt mit den Parametern   und  , auch geschrieben als   oder  -normalverteilt. Für die Parameter gilt:   ist der Erwartungswert und   ist die Varianz.

 
Dichtefunktion der Standardnormalverteilung  

Im Fall   und   wird diese Verteilung Standardnormalverteilung genannt. Die Dichtefunktion der Standardnormalverteilung ist

 

Ihr Verlauf ist nebenstehend graphisch dargestellt.

Die Verteilungsfunktion der Normalverteilung ist durch

 

gegeben. Mit der Substitution   folgt

 

Dabei ist   die Verteilungsfunktion der Standardnormalverteilung

 

Die mehrdimensionale Verallgemeinerung ist im Artikel mehrdimensionale Normalverteilung zu finden.

EigenschaftenBearbeiten

SymmetrieBearbeiten

Der Graph der Wahrscheinlichkeitsdichte   ist eine Gaußsche Glockenkurve, deren Höhe und Breite von   abhängt. Sie ist achsensymmetrisch zur Geraden mit der Gleichung   und somit eine symmetrische Wahrscheinlichkeitsverteilung um ihren Erwartungswert. Der Graph der Verteilungsfunktion   ist punktsymmetrisch zum Punkt   Für   gilt insbesondere   und   für alle  .

Maximalwert und Wendepunkte der DichtefunktionBearbeiten

Mit Hilfe der ersten und zweiten Ableitung lassen sich der Maximalwert und die Wendepunkte bestimmen. Die erste Ableitung ist

 

Das Maximum der Dichtefunktion der Normalverteilung liegt demnach bei   und beträgt dort  

Die zweite Ableitung lautet

 

Somit liegen die Wendestellen der Dichtefunktion bei  . Die Dichtefunktion hat an den Wendestellen den Wert  .

NormierungBearbeiten

 
Dichte einer zentrierten Normalverteilung  .
Für   wird die Funktion immer höher und schmaler, der Flächeninhalt bleibt jedoch unverändert 1.

Wichtig ist, dass die gesamte Fläche unter der Kurve gleich 1, also gleich der Wahrscheinlichkeit des sicheren Ereignisses, ist. Somit folgt, dass, wenn zwei Gaußsche Glockenkurven dasselbe   aber unterschiedliches   haben, die Kurve mit dem größeren   breiter und niedriger ist (da ja beide zugehörigen Flächen jeweils den Wert 1 haben und nur die Standardabweichung (oder „Streuung“) größer ist). Zwei Glockenkurven mit gleichem   aber unterschiedlichem   haben kongruente Graphen, die um die Differenz der  -Werte parallel zur  -Achse gegeneinander verschoben sind.

Jede Normalverteilung ist tatsächlich normiert, denn mit Hilfe der linearen Substitution   erhalten wir

 

Für die Normiertheit des letzteren Integrals siehe den Artikel Fehlerintegral.

BerechnungBearbeiten

Da sich   nicht auf eine elementare Stammfunktion zurückführen lässt, wurde für die Berechnung früher meist auf Tabellen zurückgegriffen (siehe Tabelle der Standardnormalverteilung). Heutzutage sind in statistischen Programmiersprachen wie zum Beispiel R Funktionen verfügbar, die auch die Transformation auf beliebige   und   beherrschen.

ErwartungswertBearbeiten

Der Erwartungswert der Standardnormalverteilung ist 0. Es sei  , so gilt

 

da der Integrand integrierbar und punktsymmetrisch ist.


Ist nun  , so gilt   ist standardnormalverteilt, und somit

 

Varianz und weitere StreumaßeBearbeiten

Die Varianz der  -normalverteilten Zufallsgröße ist  , ein elementarer Beweis wird Poisson zugeschrieben.

Die mittlere absolute Abweichung ist   und der Interquartilsabstand  .

Standardabweichung der NormalverteilungBearbeiten

Eindimensionale Normalverteilungen werden durch Angabe von Erwartungswert   und Varianz   vollständig beschrieben. Ist also   eine  - -verteilte Zufallsvariable – in Symbolen   –, so ist ihre Standardabweichung einfach  .

StreuintervalleBearbeiten

 
Intervalle um   bei der Normalverteilung

Aus der Tabelle der Standardnormalverteilung ist ersichtlich, dass für normalverteilte Zufallsgrößen jeweils ungefähr

68,3 % der Realisierungen im Intervall  ,
95,4 % im Intervall   und
99,7 % im Intervall  

liegen. Da in der Praxis viele Zufallsgrößen annähernd normalverteilt sind, werden diese Werte aus der Normalverteilung oft als Faustformel benutzt. So wird beispielsweise σ oft als die halbe Breite des Intervalls angenommen, welches die mittleren zwei Drittel der Werte in einer Stichprobe umfasst, siehe Quantil.

 
Normalverteilung (a) und kontaminierte Normalverteilung (b)

Diese Praxis ist aber nicht empfehlenswert, denn sie kann zu sehr großen Fehlern führen. Zum Beispiel ist die Verteilung   optisch kaum von der Normalverteilung zu unterscheiden (siehe Bild), aber bei ihr liegen im Intervall   92,5 % der Werte, wobei   die Standardabweichung von   bezeichnet. Solche kontaminierten Normalverteilungen sind in der Praxis sehr häufig; das genannte Beispiel beschreibt die Situation, wenn zehn Präzisionsmaschinen etwas herstellen, aber eine davon schlecht justiert ist und zehnmal weniger präzise als die anderen neun produziert.

Werte außerhalb der zwei- bis dreifachen Standardabweichung werden oft als Ausreißer behandelt. Ausreißer können ein Hinweis auf grobe Fehler der Datenerfassung sein. Es kann den Daten aber auch eine stark schiefe Verteilung zu Grunde liegen. Andererseits liegt bei einer Normalverteilung im Durchschnitt ca. jeder 20. Messwert außerhalb der zweifachen Standardabweichung und ca. jeder 500. Messwert außerhalb der dreifachen Standardabweichung.

Da der Anteil der Werte außerhalb der sechsfachen Standardabweichung mit ca. 2 ppb verschwindend klein wird, gilt ein solches Intervall als gutes Maß für eine nahezu vollständige Abdeckung aller Werte. Das wird im Qualitätsmanagement durch die Methode Six Sigma genutzt, indem die Prozessanforderungen Toleranzgrenzen von mindestens 6σ vorschreiben. Allerdings geht man dort von einer langfristigen Mittelwertverschiebung um 1,5 Standardabweichungen aus, so dass der zulässige Fehleranteil auf 3,4 ppm steigt. Dieser Fehleranteil entspricht einer viereinhalbfachen Standardabweichung (4,5σ). Ein weiteres Problem der 6σ-Methode ist, dass die 6σ-Punkte praktisch nicht bestimmbar sind. Bei unbekannter Verteilung (d. h. wenn es sich nicht ganz sicher um eine Normalverteilung handelt) grenzen zum Beispiel die Extremwerte von 1.400.000.000 Messungen ein 75 %-Konfidenzintervall für die 6σ-Punkte ein.[4]

 
Abhängigkeit der Wahrscheinlichkeit (Prozent innerhalb) von der Größe des Streuintervalls p(z)
 
Abhängigkeit der Streuintervallgrenze von der eingeschlossenen Wahrscheinlichkeit z(p)
Erwartete Anteile der Werte einer normalverteilten Zufallsvariablen innerhalb bzw. außerhalb der Streuintervalle (μ−zσ, μ+zσ)
zσ Prozent innerhalb Prozent außerhalb ppb außerhalb Bruchteil außerhalb
0,674 490σ 50 % 50 % 500.000.000 ppb 1 / 2
0,994 458σ 68 % 32 % 320.000.000 ppb 1 / 3,125
68,268 9492 % 31,731 0508 % 317.310.508 ppb 1 / 3,151 4872
1,281 552σ 80 % 20 % 200.000.000 ppb 1 / 5
1,644 854σ 90 % 10 % 100.000.000 ppb 1 / 10
1,959 964σ 95 % 5 % 50.000.000 ppb 1 / 20
95,449 9736 % 4,550 0264 % 45.500.264 ppb 1 / 21,977 895
2,575 829σ 99 % 1 % 10.000.000 ppb 1 / 100
99,730 0204 % 0,269 9796 % 2.699.796 ppb 1 / 370,398
3,290 527σ 99,9 % 0,1 % 1.000.000 ppb 1 / 1.000
3,890 592σ 99,99 % 0,01 % 100.000 ppb 1 / 10.000
99,993 666 % 0,006 334 % 63.340 ppb 1 / 15.787
4,417 173σ 99,999 % 0,001 % 10.000 ppb 1 / 100.000
4,891 638σ 99,9999 % 0,0001 % 1.000 ppb 1 / 1.000.000
99,999 942 6697 % 0,000 057 3303 % 573,3303 ppb 1 / 1.744.278
5,326 724σ 99,999 99 % 0,000 01 % 100 ppb 1 / 10.000.000
5,730 729σ 99,999 999 % 0,000 001 % 10 ppb 1 / 100.000.000
99,999 999 8027 % 0,000 000 1973 % 1,973 ppb 1 / 506.797.346
6,109 410σ 99,999 9999 % 0,000 0001 % 1 ppb 1 / 1.000.000.000
6,466 951σ 99,999 999 99 % 0,000 000 01 % 0,1 ppb 1 / 10.000.000.000
6,806 502σ 99,999 999 999 % 0,000 000 001 % 0,01 ppb 1 / 100.000.000.000
99,999 999 999 7440 % 0,000 000 000 256 % 0,002 56 ppb 1 / 390.682.215.445

Die Wahrscheinlichkeiten   für bestimmte Streuintervalle   können berechnet werden als

 ,

wobei   die Verteilungsfunktion der Standardnormalverteilung ist.

Umgekehrt können für gegebenes   durch

 

die Grenzen des zugehörigen Streuintervalls   mit Wahrscheinlichkeit   berechnet werden.

Ein Beispiel (mit Schwankungsbreite)Bearbeiten

Die Körpergröße des Menschen ist näherungsweise normalverteilt. Bei einer Stichprobe von 1.284 Mädchen und 1.063 Jungen zwischen 14 und 18 Jahren wurde bei den Mädchen eine durchschnittliche Körpergröße von 166,3 cm (Standardabweichung 6,39 cm) und bei den Jungen eine durchschnittliche Körpergröße von 176,8 cm (Standardabweichung 7,46 cm) gemessen.[5]

Demnach lässt obige Schwankungsbreite erwarten, dass 68,3 % der Mädchen eine Körpergröße im Bereich 166,3 cm ± 6,39 cm und 95,4 % im Bereich 166,3 cm ± 12,78 cm haben,

  • 16 % [≈ (100 % − 68,3 %)/2] der Mädchen kleiner als 160 cm (und 16 % entsprechend größer als 173 cm) sind und
  • 2,5 % [≈ (100 % − 95,4 %)/2] der Mädchen kleiner als 154 cm (und 2,5 % entsprechend größer als 179 cm) sind.

Für die Jungen lässt sich erwarten, dass 68 % eine Körpergröße im Bereich 176,8 cm ± 7,46 cm und 95 % im Bereich 176,8 cm ± 14,92 cm haben,

  • 16 % der Jungen kleiner als 169 cm (und 16 % größer als 184 cm) und
  • 2,5 % der Jungen kleiner als 162 cm (und 2,5 % größer als 192 cm) sind.

VariationskoeffizientBearbeiten

Aus Erwartungswert   und Standardabweichung   der  -Verteilung erhält man unmittelbar den Variationskoeffizienten

 

SchiefeBearbeiten

Die Schiefe besitzt unabhängig von den Parametern   und   immer den Wert 0.

WölbungBearbeiten

Die Wölbung ist ebenfalls von   und   unabhängig und ist gleich 3. Um die Wölbungen anderer Verteilungen besser einschätzen zu können, werden sie oft mit der Wölbung der Normalverteilung verglichen. Dabei wird die Wölbung der Normalverteilung auf 0 normiert (Subtraktion von 3); diese Größe wird als Exzess bezeichnet.

KumulantenBearbeiten

Die kumulantenerzeugende Funktion ist

 

Damit ist die erste Kumulante  , die zweite ist   und alle weiteren Kumulanten verschwinden.

Charakteristische FunktionBearbeiten

Die charakteristische Funktion für eine standardnormalverteilte Zufallsvariable   ist

 .

Für eine Zufallsvariable   erhält man daraus

 

Momenterzeugende FunktionBearbeiten

Die momenterzeugende Funktion der Normalverteilung ist

 

MomenteBearbeiten

Die Zufallsvariable   sei  -verteilt. Dann sind ihre ersten Momente wie folgt:

Ordnung   Moment   zentrales Moment  
0    
1    
2    
3    
4    
5    
6    
7    
8    

Alle zentralen Momente   lassen sich durch die Standardabweichung   darstellen:

 

dabei wurde die Doppelfakultät verwendet:

 

Auch für   kann eine Formel für nicht-zentrale Momente angegeben werden. Dafür transformiert man   und wendet den binomischen Lehrsatz an.

 

Invarianz gegenüber FaltungBearbeiten

Die Normalverteilung ist invariant gegenüber der Faltung, d. h., die Summe unabhängiger normalverteilter Zufallsgrößen ist wieder normalverteilt. Somit bildet die Normalverteilung eine Faltungshalbgruppe in ihren beiden Parametern. Eine veranschaulichende Formulierung dieses Sachverhaltes lautet: Die Faltung einer Gaußkurve der Halbwertsbreite   mit einer Gaußkurve der Halbwertsbreite   ergibt wieder eine Gaußkurve mit der Halbwertsbreite

 

Sind also   zwei unabhängige Zufallsvariablen mit

 

so ist deren Summe ebenfalls normalverteilt:

 

Das kann beispielsweise mit Hilfe von charakteristischen Funktionen gezeigt werden, indem man verwendet, dass die charakteristische Funktion der Summe das Produkt der charakteristischen Funktionen der Summanden ist (vgl. Faltungssatz der Fouriertransformation).

Gegeben seien allgemeiner   unabhängige und normalverteilte Zufallsgrößen  . Dann ist deren Summe wieder normalverteilt

 

und das arithmetische Mittel ebenfalls

 

Nach dem Satz von Cramér gilt sogar die Umkehrung: Ist eine normalverteilte Zufallsgröße die Summe von unabhängigen Zufallsgrößen, dann sind die Summanden ebenfalls normalverteilt.

Die Dichtefunktion der Normalverteilung ist ein Fixpunkt der Fourier-Transformation, d. h., die Fourier-Transformierte einer Gaußkurve ist wieder eine Gaußkurve. Das Produkt der Standardabweichungen dieser korrespondierenden Gaußkurven ist konstant; es gilt die Heisenbergsche Unschärferelation.

EntropieBearbeiten

Die Normalverteilung hat die Entropie:  .

Da sie für gegebenen Mittelwert und gegebene Varianz die größte Entropie unter allen Verteilungen hat, wird sie in der Maximum-Entropie-Methode oft als A-priori-Wahrscheinlichkeit verwendet.

Beziehungen zu anderen VerteilungsfunktionenBearbeiten

Transformation zur StandardnormalverteilungBearbeiten

Eine Normalverteilung mit beliebigen   und   und der Verteilungsfunktion   hat, wie oben erwähnt, die nachfolgende Beziehung zur  -Verteilung:

 

Darin ist   die Verteilungsfunktion der Standardnormalverteilung.

Wenn  , dann führt die Z-Transformation

 

zu einer standardnormalverteilten Zufallsvariablen  , denn

 

Geometrisch betrachtet entspricht die durchgeführte Substitution einer flächentreuen Transformation der Glockenkurve von   zur Glockenkurve von  .

Approximation der Binomialverteilung durch die NormalverteilungBearbeiten

Hauptartikel: Normal-Approximation

Die Normalverteilung kann zur Approximation der Binomialverteilung verwendet werden, wenn der Stichprobenumfang hinreichend groß und in der Grundgesamtheit der Anteil der gesuchten Eigenschaft weder zu groß noch zu klein ist (Satz von Moivre-Laplace, zentraler Grenzwertsatz).

Ist ein Bernoulli-Versuch mit   voneinander unabhängigen Stufen (bzw. Zufallsversuchen) mit einer Erfolgswahrscheinlichkeit   gegeben, so lässt sich die Wahrscheinlichkeit für   Erfolge allgemein durch   für   berechnen (Binomialverteilung).

Diese Binomialverteilung kann durch eine Normalverteilung approximiert werden, wenn   hinreichend groß und   weder zu groß noch zu klein ist. Als Faustregel dafür gilt  . Für den Erwartungswert   und die Standardabweichung   gilt dann:

  und  .

Damit gilt für die Standardabweichung  .

Falls diese Bedingung nicht erfüllt sein sollte, ist die Ungenauigkeit der Näherung immer noch vertretbar, wenn gilt:   und zugleich  .

Folgende Näherung ist dann brauchbar:

 

Bei der Normalverteilung wird die untere Grenze um 0,5 verkleinert und die obere Grenze um 0,5 vergrößert, um eine bessere Approximation gewährleisten zu können. Dies nennt man auch Stetigkeitskorrektur. Nur wenn   einen sehr hohen Wert besitzt, kann auf sie verzichtet werden.

Da die Binomialverteilung diskret ist, muss auf einige Punkte geachtet werden:

  • Der Unterschied zwischen   oder   (und auch größer und größer gleich) muss beachtet werden (was ja bei der Normalverteilung nicht der Fall ist). Deshalb muss bei   die nächstkleinere natürliche Zahl gewählt werden, d. h.
  bzw.  ,
damit mit der Normalverteilung weitergerechnet werden kann.
Zum Beispiel:  
  • Außerdem ist
 
 
  (unbedingt mit Stetigkeitskorrektur)
und lässt sich somit durch die oben angegebene Formel berechnen.

Der große Vorteil der Approximation liegt darin, dass sehr viele Stufen einer Binomialverteilung sehr schnell und einfach bestimmt werden können.

Beziehung zur Cauchy-VerteilungBearbeiten

Der Quotient von zwei unabhängigen  -standardnormalverteilten Zufallsvariablen ist Cauchy-verteilt.

Beziehung zur Chi-Quadrat-VerteilungBearbeiten

  • Die Summe   von   unabhängigen quadrierten standardnormalverteilten Zufallsvariablen   genügt einer Chi-Quadrat-Verteilung   mit   Freiheitsgraden.
  • Die Summe   mit   und   unabhängigen normalverteilten Zufallsvariablen   genügt einer Chi-Quadrat-Verteilung   mit   Freiheitsgraden.
  • Mit steigender Zahl an Freiheitsgraden (df ≫ 100) nähert sich die Chi-Quadrat-Verteilung der Normalverteilung an.
  • Die Chi-Quadrat-Verteilung wird zur Konfidenzschätzung für die Varianz einer normalverteilten Grundgesamtheit verwendet.

Beziehung zur Rayleigh-VerteilungBearbeiten

Der Betrag   zweier normalverteilter Zufallsvariablen   ist Rayleigh-verteilt.

Beziehung zur logarithmischen NormalverteilungBearbeiten

Ist die Zufallsvariable   normalverteilt mit  , dann ist die Zufallsvariable   logarithmisch-normalverteilt mit  .

Die Entstehung einer logarithmischen Normalverteilung ist auf multiplikatives, die einer Normalverteilung auf additives Zusammenwirken vieler Zufallsgrößen zurückführen.

Beziehung zur F-VerteilungBearbeiten

Wenn die identischen normalverteilten Zufallsvariablen   und   die Parameter

 
 

mit   besitzen, dann unterliegt die Zufallsvariable

 

einer F-Verteilung mit   Freiheitsgraden. Dabei sind

 

Beziehung zur studentschen t-VerteilungBearbeiten

Wenn die unabhängigen Zufallsvariablen   identisch normalverteilt sind mit den Parametern   und  , dann unterliegt die stetige Zufallsgröße

 

einer studentschen t-Verteilung mit   Freiheitsgraden.

Für eine steigende Anzahl an Freiheitsgraden nähert sich die Student-t-Verteilung der Normalverteilung immer näher an. Als Faustregel gilt, dass man ab ca.   die Student-t-Verteilung bei Bedarf durch die Normalverteilung approximieren kann.

Die Student-t-Verteilung wird zur Konfidenzschätzung für den Erwartungswert einer normalverteilten Zufallsvariable bei unbekannter Varianz verwendet.

Rechnen mit der StandardnormalverteilungBearbeiten

Bei Aufgabenstellungen, bei denen die Wahrscheinlichkeit für  -normalverteilte Zufallsvariablen durch die Standardnormalverteilung ermittelt werden soll, ist es nicht nötig, die oben angegebene Transformation jedes Mal durchzurechnen. Stattdessen wird einfach die Transformation

 

verwendet, um eine  -Verteilte Zufallsvariable   zu erzeugen.

Die Wahrscheinlichkeit für das Ereignis, dass z. B.   im Intervall   liegt, ist durch folgende Umrechnung gleich einer Wahrscheinlichkeit der Standardnormalverteilung:

 

Grundlegende FragestellungenBearbeiten

Allgemein gibt die Verteilungsfunktion die Fläche unter der Glockenkurve bis zum Wert   an, d. h., es wird das bestimmte Integral von   bis   berechnet.

Dies entspricht in Aufgabenstellungen einer gesuchten Wahrscheinlichkeit, bei der die Zufallsvariable   kleiner oder nicht größer als eine bestimmte Zahl   ist. Wegen der Stetigkeit der Normalverteilung macht es keinen Unterschied, ob nun   oder   verlangt ist, weil z. B.

  und somit  

Analoges gilt für größer und nicht kleiner.

Dadurch, dass   nur kleiner oder größer als eine Grenze sein (oder innerhalb oder außerhalb zweier Grenzen liegen) kann, ergeben sich für Aufgaben bei Wahrscheinlichkeitsberechnungen zu Normalverteilungen zwei grundlegende Fragestellungen:

  • Wie groß ist die Wahrscheinlichkeit, dass bei einem Zufallsversuch die standardnormalverteilte Zufallsvariable   höchstens den Wert   annimmt?
     
In der Schulmathematik wird für diese Aussage gelegentlich auch die Bezeichnung linker Spitz verwendet, da die Fläche unter der Gaußkurve von links bis zur Grenze verläuft. Für   sind auch negative Werte erlaubt. Allerdings haben viele Tabellen der Standardnormalverteilung nur positive Einträge – wegen der Symmetrie der Kurve und der Negativitätsregel
 
des „linken Spitzes“ stellt dies aber keine Einschränkung dar.
  • Wie groß ist die Wahrscheinlichkeit, dass bei einem Zufallsversuch die standardnormalverteilte Zufallsvariable   mindestens den Wert   annimmt?
 
Hier wird gelegentlich die Bezeichnung rechter Spitz verwendet, mit
 
gibt es auch hier eine Negativitätsregel.

Da jede Zufallsvariable   mit der allgemeinen Normalverteilung sich in die Zufallsgröße   mit der Standardnormalverteilung umwandeln lässt, gelten die Fragestellungen für beide Größen gleichbedeutend.

Streubereich und AntistreubereichBearbeiten

Häufig ist die Wahrscheinlichkeit für einen Streubereich von Interesse, d. h. die Wahrscheinlichkeit, dass die standardnormalverteilte Zufallsvariable   Werte zwischen   und   annimmt:

 

Beim Sonderfall des symmetrischen Streubereiches ( , mit  ) gilt

 

Für den entsprechenden Antistreubereich ergibt sich die Wahrscheinlichkeit, dass die standardnormalverteilte Zufallsvariable   Werte außerhalb des Bereichs zwischen   und   annimmt, zu:

 

Somit folgt bei einem symmetrischen Antistreubereich

 

Streubereiche am Beispiel der QualitätssicherungBearbeiten

Besondere Bedeutung haben beide Streubereiche z. B. bei der Qualitätssicherung von technischen oder wirtschaftlichen Produktionsprozessen. Hier gibt es einzuhaltende Toleranzgrenzen   und   , wobei es meist einen größten noch akzeptablen Abstand   vom Erwartungswert   (= dem optimalen Sollwert) gibt.   kann hingegen empirisch aus dem Produktionsprozess gewonnen werden.

Wurde   als einzuhaltendes Toleranzintervall angegeben, so liegt (je nach Fragestellung) ein symmetrischer Streu- oder Antistreubereich vor.

Im Falle des Streubereiches gilt:

 

Der Antistreubereich ergibt sich dann aus

 

oder wenn kein Streubereich berechnet wurde durch

 

Das Ergebnis   ist also die Wahrscheinlichkeit für verkaufbare Produkte, während   die Wahrscheinlichkeit für Ausschuss bedeutet, wobei beides von den Vorgaben von  ,   und   abhängig ist.

Ist bekannt, dass die maximale Abweichung   symmetrisch um den Erwartungswert liegt, so sind auch Fragestellungen möglich, bei denen die Wahrscheinlichkeit vorgegeben und eine der anderen Größen zu berechnen ist.

Testen auf NormalverteilungBearbeiten

 
Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung
 
Eine χ²-verteilte Zufallsvariable mit 5 Freiheitsgraden wird auf Normalverteilung getestet. Für jeden Stichprobenumfang werden 10.000 Stichproben simuliert und anschließend jeweils 5 Anpassungstests zu einem Niveau von 5 % durchgeführt.

Um zu überprüfen, ob vorliegende Daten normalverteilt sind, können folgende Methoden angewandt werden:

Die Tests haben unterschiedliche Eigenschaften hinsichtlich der Art der Abweichungen von der Normalverteilung, die sie erkennen. So erkennt der Kolmogorov-Smirnov-Test Abweichungen in der Mitte der Verteilung eher als Abweichungen an den Rändern, während der Jarque-Bera-Test ziemlich sensibel auf stark abweichende Einzelwerte an den Rändern („heavy tails“) reagiert.

Beim Lilliefors-Test muss im Gegensatz zum Kolmogorov-Smirnov-Test nicht standardisiert werden, d. h.,   und   der angenommenen Normalverteilung dürfen unbekannt sein.

Mit Hilfe von Quantil-Quantil-Plots (auch Normal-Quantil-Plots oder kurz Q-Q-Plots) ist eine einfache grafische Überprüfung auf Normalverteilung möglich.
Mit der Maximum-Likelihood-Methode können die Parameter   und   der Normalverteilung geschätzt und die empirischen Daten mit der angepassten Normalverteilung grafisch verglichen werden.

Parameterschätzung, Konfidenzintervalle und TestsBearbeiten

Hauptartikel: Normalverteilungsmodell

Viele der statistischen Fragestellungen, in denen die Normalverteilung vorkommt, sind gut untersucht. Wichtigster Fall ist das sogenannte Normalverteilungsmodell, in dem man von der Durchführung von   unabhängigen und normalverteilten Versuchen ausgeht. Dabei treten drei Fälle auf:

  • der Erwartungswert ist unbekannt und die Varianz bekannt
  • die Varianz ist unbekannt und der Erwartungswert ist bekannt
  • Erwartungswert und Varianz sind unbekannt.

Je nachdem, welcher dieser Fälle auftritt, ergeben sich verschiedene Schätzfunktionen, Konfidenzbereiche oder Tests. Diese sind detailliert im Hauptartikel Normalverteilungsmodell zusammengefasst.

Dabei kommt den folgenden Schätzfunktionen eine besondere Bedeutung zu:

 
ist ein erwartungstreuer Schätzer für den unbekannten Erwartungswert sowohl für den Fall einer bekannten als auch einer unbekannten Varianz. Sowohl die Maximum-Likelihood-Methode als auch die Momentenmethode liefern das Stichprobenmittel als Schätzfunktion.
 .
ist ein erwartungstreuer Schätzer für die unbekannte Varianz bei gegebenem Erwartungswert  . Auch sie kann sowohl aus der Maximum-Likelihood-Methode als auch aus der Momentenmethode gewonnen werden.
 .
ist ein erwartungstreuer Schätzer für die unbekannte Varianz bei unbekanntem Erwartungswert.

Erzeugung normalverteilter ZufallszahlenBearbeiten

Alle folgenden Verfahren erzeugen standardnormalverteilte Zufallszahlen. Durch lineare Transformation lassen sich hieraus beliebige normalverteilte Zufallszahlen erzeugen: Ist die Zufallsvariable  -verteilt, so ist   schließlich  -verteilt.

Box-Muller-MethodeBearbeiten

Nach der Box-Muller-Methode lassen sich zwei unabhängige, standardnormalverteilte Zufallsvariablen   und   aus zwei unabhängigen, gleichverteilten Zufallsvariablen  , sogenannten Standardzufallszahlen, simulieren:

 

und

 

Polar-MethodeBearbeiten

Hauptartikel: Polar-Methode

Die Polar-Methode von George Marsaglia ist auf einem Computer noch schneller, da sie keine Auswertungen von trigonometrischen Funktionen benötigt:

  1. Erzeuge zwei voneinander unabhängige, im Intervall   gleichverteilte Zufallszahlen   und  
  2. Berechne  . Falls   oder  , gehe zurück zu Schritt 1.
  3. Berechne  .
  4.   für   liefert zwei voneinander unabhängige, standardnormalverteilte Zufallszahlen   und  .

ZwölferregelBearbeiten

Der zentrale Grenzwertsatz besagt, dass sich unter bestimmten Voraussetzungen die Verteilung der Summe unabhängiger, identisch verteilter Zufallszahlen einer Normalverteilung nähert.

Ein Spezialfall ist die Zwölferregel, die sich auf die Summe von zwölf Zufallszahlen aus einer Gleichverteilung auf dem Intervall [0,1] beschränkt und bereits zu passablen Verteilungen führt.

Allerdings ist die geforderte Unabhängigkeit der zwölf Zufallsvariablen   bei den immer noch häufig verwendeten Linearen Kongruenzgeneratoren (LKG) nicht garantiert. Im Gegenteil wird vom Spektraltest für LKG meist nur die Unabhängigkeit von maximal vier bis sieben der   garantiert. Für numerische Simulationen ist die Zwölferregel daher sehr bedenklich und sollte, wenn überhaupt, dann ausschließlich mit aufwändigeren, aber besseren Pseudo-Zufallsgeneratoren wie z. B. dem Mersenne-Twister (Standard in Python, GNU R) oder WELL genutzt werden. Andere, sogar leichter zu programmierende Verfahren, sind daher i. d. R. der Zwölferregel vorzuziehen.

VerwerfungsmethodeBearbeiten

Normalverteilungen lassen sich mit der Verwerfungsmethode (s. dort) simulieren.

InversionsmethodeBearbeiten

Die Normalverteilung lässt sich auch mit der Inversionsmethode berechnen. Da das Fehlerintegral leider nicht explizit mit elementaren Funktionen integrierbar ist, muss man auf Reihenentwicklungen der inversen Funktion für einen Startwert (  weiter unten) und anschließende Korrektur mit dem Newtonverfahren zurückgreifen. Dazu werden erf(x) und erfc(x) benötigt, die ihrerseits mit Reihenentwicklungen und Kettenbruchentwicklungen berechnet werden können – insgesamt ein relativ hoher Aufwand. Die notwendigen Entwicklungen sind in der Literatur zu finden.[6]

Entwicklung des inversen Fehlerintegrals (wegen des Pols nur als Startwert für das Newtonverfahren verwendbar):

 

mit den Koeffizienten

 

Anwendungen außerhalb der WahrscheinlichkeitsrechnungBearbeiten

Die Normalverteilung lässt sich auch zur Beschreibung nicht direkt stochastischer Sachverhalte verwenden, etwa in der Physik für das Amplitudenprofil der Gauß-Strahlen und andere Verteilungsprofile.

Zudem findet sie Verwendung in der Gabor-Transformation.

Siehe auchBearbeiten

LiteraturBearbeiten

  • Stephen M. Stigler: The history of statistics: the measurement of uncertainty before 1900. Belknap Series. Harvard University Press, 1986. ISBN 9780674403413.

WeblinksBearbeiten

Fußnoten und EinzelnachweiseBearbeiten

  1. Wolfgang Götze, Christel Deutschmann, Heike Link: Statistik. Lehr- und Übungsbuch mit Beispielen aus der Tourismus- und Verkehrswirtschaft. Oldenburg, München 2002, ISBN 3-486-27233-0, S. 170 (eingeschränkte Vorschau in der Google-Buchsuche).
  2. Hans Wußing: Von Gauß bis Poincaré: Mathematik und Industrielle Revolution. S. 33.
  3. Bei   handelt es sich um die Exponentialfunktion mit der Basis  
  4. H. Schmid, A. Huber: Measuring a Small Number of Samples and the 3σ Fallacy. (PDF) In: IEEE Solid-State Circuits Magazine. vol. 6, no. 2, 2014, S. 52–58.
  5. Mareke Arends: Epidemiologie bulimischer Symptomatik unter 10-Klässlern in der Stadt Halle. Dissertation. Martin-Luther-Universität Halle-Wittenberg, 2005, Tabelle 9, S. 30. (Abstract & Volltext)
  6. William B. Jones, W. J. Thron: Continued Fractions: Analytic Theory and Applications. Addison Wesley, 1980.