Mehrdimensionale Normalverteilung

multivariate Verteilung In der multivariaten Statistik
Dichte der bivariaten Normalverteilung im dreidimensionalen Raum

Die mehrdimensionale oder multivariate Normalverteilung ist eine multivariate Verteilung In der multivariaten Statistik. Sie stellt eine Verallgemeinerung der (eindimensionalen) Normalverteilung auf mehrere Dimensionen dar.[1] Eine zweidimensionale Normalverteilung wird auch bivariate Normalverteilung genannt.

Bestimmt wird eine mehrdimensionale Normalverteilung durch zwei Verteilungsparameter – den Erwartungswertvektor und durch die Kovarianzmatrix , welche den Parametern (Erwartungswert) und (Varianz) der eindimensionalen Normalverteilungen entsprechen.

Mehrdimensional normalverteilte Zufallsvariablen treten als Grenzwerte bestimmter Summen unabhängiger mehrdimensionaler Zufallsvariablen auf. Dies ist die Verallgemeinerung des zentralen Grenzwertsatz zum mehrdimensionalen zentralen Grenzwertsatz.

Weil sie entsprechend dort auftreten, wo mehrdimensionale zufällige Größen als Überlagerung vieler voneinander unabhängiger Einzeleffekte angesehen werden können, haben sie für die Praxis eine große Bedeutung.

Aufgrund der sogenannten Reproduktionseigenschaft der mehrdimensionalen Normalverteilung lässt sich die Verteilung von Summen (und Linearkombinationen) mehrdimensional normalverteilter Zufallsvariablen konkret angeben.

Die mehrdimensionale Normalverteilung: regulärer FallBearbeiten

 
10000 Stichproben einer zweidimensionalen Normalverteilung mit  ,   und ρ = 0.7

Eine  -dimensionale reelle Zufallsvariable   ist mehrdimensional normalverteilt mit Erwartungswertvektor   und (positiv definiter, also regulärer) Kovarianzmatrix  , wenn sie eine Dichtefunktion der Form[2]

 

besitzt. Man schreibt

 .

Das Subskript   ist die Dimension der  -dimensionalen Normalverteilung und zeigt die Anzahl der Variablen an, d. h.,   ist  ,   ist   und   ist  .[3] Für die zugehörige Verteilungsfunktion   gibt es keine geschlossene Form. Die entsprechenden Integrale müssen numerisch berechnet werden.

Der Wert im Exponentialteil der Dichtefunktion   entspricht dem Mahalanobis-Abstand, welcher der Abstand vom Testpunkt   zum Mittelwert   darstellt. Im Vergleich mit der Dichtefunktion der eindimensionalen Normalverteilung spielt bei der mehrdimensionalen Normalverteilung die Kovarianzmatrix   die Rolle der skalaren Varianz  .

EigenschaftenBearbeiten

Die mehrdimensionale Normalverteilung hat die folgenden Eigenschaften:

  • Sind die Komponenten von   paarweise unkorreliert, so sind sie auch stochastisch unabhängig.
  • Die affine Transformation   mit einer Matrix   (mit  ) und   ist  -dimensional normalverteilt:  . Dies gilt aber nach der hier gegebenen Definition nur, wenn   nichtsingulär ist, also eine nicht-verschwindende Determinante hat.
  • Die affine Transformation
 
standardisiert den Zufallsvektor  : es ist   (mit Einheitsmatrix  ).
  • Bedingte Verteilung bei partieller Kenntnis des Zufallsvektors: Bedingt man einen mehrdimensional normalverteilten Zufallsvektor auf einen Teilvektor, so ist das Ergebnis selbst wieder mehrdimensional normalverteilt, für
 
gilt
 ,
insbesondere hängt der Erwartungswert linear vom Wert von   ab und die Kovarianzmatrix ist unabhängig vom Wert von  .

Die mehrdimensionale Normalverteilung: allgemeiner FallBearbeiten

Wenn die Kovarianzmatrix   singulär ist, kann man   nicht invertieren, dann gibt es keine Dichte in der oben angegebenen Form. Gleichwohl kann man auch dann die mehrdimensionale Normalverteilung definieren, jetzt allerdings über die charakteristische Funktion.

Eine  -dimensionale reelle Zufallsvariable   heißt normalverteilt mit Erwartungswertvektor   und (positiv semidefiniter, also nicht notwendig regulärer) Kovarianzmatrix  , wenn sie eine charakteristische Funktion der folgenden Form hat:

 .

Wenn   regulär ist, existiert eine Wahrscheinlichkeitsdichte in obiger Form, wenn   singulär ist, dann existiert im  -dimensionalen Raum   keine Dichte bzgl. des Lebesgue-Maßes. Sei  , dann gibt es allerdings eine  -dimensionale Linearform  , wobei   eine  -Matrix ist, die einer  -dimensionalen Normalverteilung mit existierender Dichte im   genügt.

Die Randverteilung der mehrdimensionalen NormalverteilungBearbeiten

 
Bivariate Normalverteilung mit Randverteilungen

Sei   mehrdimensional normalverteilt. Für eine beliebige Partition   mit   und  ,  , gilt, dass die Randverteilungen   und   (mehrdimensionale) Normalverteilungen sind.

Die Umkehrung gilt allerdings nicht, wie folgendes Beispiel zeigt:

Sei   und sei   definiert durch

 

wobei  . Dann ist ebenso   und

 .

Demnach ist die Kovarianz (und damit der Korrelationskoeffizient) von   und   gleich null genau dann, wenn  . Aus der Unkorreliertheit zweier Zufallsvariablen   und   würde im mehrdimensional normalverteilten Fall sofort die Unabhängigkeit folgen (Besonderheit der mehrdimensionalen Normalverteilung), da aber   und   nach Definition nicht unabhängig sind (  immer gleich  ), kann insbesondere   nicht mehrdimensional normalverteilt sein.

Die p-dimensionale StandardnormalverteilungBearbeiten

 
Dichte der zweidimensionalen Standardnormalverteilung

Das Wahrscheinlichkeitsmaß auf  , das durch die Dichtefunktion

 

definiert wird, heißt Standardnormalverteilung der Dimension  . Die  -dimensionale Standardnormalverteilung ist abgesehen von Translationen (d. h. Erwartungswert  ) die einzige mehrdimensionale Verteilung, deren Komponenten stochastisch unabhängig sind und deren Dichte zugleich rotationssymmetrisch ist.

Momente und KumulantenBearbeiten

Wie im eindimensionalen Fall, sind alle Momente der mehrdimensionalen Normalverteilung durch die ersten beiden Momente definiert. Alle Kumulanten außer den ersten beiden sind null. Die ersten beiden Kumulanten sind dabei der Erwartungswertvektor   und die Kovarianzmatrix  . In Bezug auf das mehrdimensionale Momentenproblem hat die Normalverteilung die Eigenschaft, dass sie durch ihre Momente eindeutig definiert ist. Das heißt, wenn alle Momente einer mehrdimensionalen Wahrscheinlichkeitsverteilung existieren und den Momenten einer mehrdimensionalen Normalverteilung entsprechen, ist die Verteilung die eindeutige mehrdimensionale Normalverteilung mit diesen Momenten.[4]

Dichte der zweidimensionalen NormalverteilungBearbeiten

Die Dichtefunktion der zweidimensionalen Normalverteilung mit Mittelwerten   und   und Korrelationskoeffizient   ist

 
 
Jeweils 10.000 Stichproben zweidimensionaler Normalverteilungen mit ρ = −0.8, 0, 0.8 (alle Varianzen sind 1).

Im zweidimensionalen Fall mit Mittelwerten   und beliebigen Varianzen ist die Dichtefunktion

 

Den allgemeinen Fall mit beliebigen Mittelwerten und Varianzen bekommt man durch Translation (ersetze   durch   und   durch  )

 

Beispiel für eine mehrdimensionale NormalverteilungBearbeiten

Betrachtet wird eine Apfelbaumplantage mit sehr vielen gleich alten, also vergleichbaren Apfelbäumen. Man interessiert sich für die Merkmale Größe der Apfelbäume, die Zahl der Blätter und die Erträge. Es werden also die Zufallsvariablen definiert:

 : Höhe eines Baumes [m];  : Ertrag [100 kg];  : Zahl der Blätter [1000 Stück].

Die Variablen sind jeweils normalverteilt wie

 .

Die meisten Bäume sind also um   groß, sehr kleine oder sehr große Bäume sind eher selten. Bei einem großen Baum ist der Ertrag tendenziell größer als bei einem kleinen Baum, aber es gibt natürlich hin und wieder einen großen Baum mit wenig Ertrag. Ertrag und Größe sind korreliert, die Kovarianz beträgt   und der Korrelationskoeffizient  .

Ebenso ist   mit dem Korrelationskoeffizienten  , und   mit dem Korrelationskoeffizienten  .

Fasst man die drei Zufallsvariablen im Zufallsvektor   zusammen, ist   mehrdimensional normalverteilt. Dies gilt allerdings nicht im Allgemeinen (vgl. Die Randverteilung der mehrdimensionalen Normalverteilung). Im vorliegenden Fall gilt dann für die gemeinsame Verteilung von  

 

und

 

Die entsprechende Korrelationsmatrix lautet

 

Schätzung der Parameter der mehrdimensionalen NormalverteilungBearbeiten

In der Realität werden in aller Regel die Verteilungsparameter einer  -dimensionalen Normalverteilung nicht bekannt sein. Diese Parameter müssen also geschätzt werden.

Man zieht eine Stichprobe vom Umfang  . Jede Realisierung   des Zufallsvektors   könnte man als Punkt in einem  -dimensionalen Hyperraum auffassen. Man erhält so die   eine  -Matrix (Versuchsplan- oder Datenmatrix):

 , wobei  

die in jeder Zeile die Koordinaten eines Punktes enthält (siehe multiplen linearen Modell in Matrixschreibweise).

Der Erwartungswertvektor wird geschätzt durch den Mittelwertvektor der   arithmetischen Mittelwerte der Spalten von  

 

mit den Komponenten

 .

Dieser Schätzer ist bzgl. der mittleren quadratischen Abweichung der beste erwartungstreue Schätzer für den Erwartungswertvektor. Allerdings ist er für   nicht zulässig im Sinne der Entscheidungstheorie. Es gibt dann bessere Schätzer, z. B. den James-Stein-Schätzer.

Für die Schätzung der Kovarianzmatrix erweist sich die bezüglich der arithmetischen Mittelwerte zentrierte Datenmatrix   als nützlich. Sie berechnet sich als

 ,

mit den Elementen  , wobei   den Einsvektor, einen Spaltenvektor der Länge   mit lauter Einsen, darstellt. Es wird also bei allen Einträgen das arithmetische Mittel der zugehörigen Spalte subtrahiert.

Die  -Kovarianzmatrix hat die geschätzten Komponenten

 .

Sie ergibt sich als

 .

Die Korrelationsmatrix   wird geschätzt durch die paarweisen Korrelationskoeffizienten

 ,

auf ihrer Hauptdiagonalen stehen Einsen.

Beispiel zu StichprobenBearbeiten

Es wurden 10 Apfelbäume zufällig ausgewählt und jeweils 3 Eigenschaften gemessen:  : Höhe eines Baumes [m];  : Ertrag [100 kg];  : Zahl der Blätter [1000 Stück]. Diese   Beobachtungen werden in der Datenmatrix   zusammengefasst:

 .

Die Mittelwerte berechnen sich, wie beispielhaft an   gezeigt, als

 .

Sie ergeben den Mittelwertvektor

 .

Für die zentrierte Datenmatrix   erhält man die zentrierten Beobachtungen, indem von den Spalten der entsprechende Mittelwert abzogen wird:

 ,

also

 .

Man berechnet für die Kovarianzmatrix die Kovarianzen, wie im Beispiel,

 

und entsprechend die Varianzen

 ,

so dass sich die Stichproben-Kovarianzmatrix

 

ergibt.

Entsprechend erhält man für die Korrelationsmatrix zum Beispiel

 

bzw. insgesamt

 .

Erzeugung mehrdimensionaler, normalverteilter ZufallszahlenBearbeiten

Eine oft verwendete Methode zur Erzeugung eines Zufallsvektors   einer  -dimensionalen Normalverteilung mit Erwartungswertvektor   und (symmetrischer und positiv definiter) Kovarianzmatrix   kann wie folgt angegeben werden:

  1. Bestimme eine Matrix  , so dass  . Dazu kann die Cholesky-Zerlegung von   oder die Quadratwurzel von   verwendet werden.
  2. Sei   ein Vektor, dessen   Komponenten stochastisch unabhängige, standardnormalverteilte Zufallszahlen sind. Diese können beispielsweise mit Hilfe der Box-Muller-Methode generiert werden.
  3. Mit der affinen Transformation   ergibt sich die gewünschte  -dimensionale Normalverteilung.

LiteraturBearbeiten

  • Mardia, KV, Kent, JT, Bibby, JM: Multivariate Analysis, New York 1979
  • Fahrmeir, Ludwig, Hamerle, Alfred, Tutz, Gerhard (Hrsg.): Multivariate statistische Verfahren, New York 1996
  • Hartung, Joachim, Elpelt, Bärbel: Multivariate Statistik, München, Wien 1999
  • Flury, Bernhard, A first course in multivariate statistics, New York, 1997.

AnmerkungenBearbeiten

  1. Mehrdimensionale und multivariate Normalverteilung werden in diesem Artikel synonym verwendet. Bei Hartung/Elpelt: Multivariate Statistik haben sie aber (in Kapitel 1, Abschnitt 5) unterschiedliche Bedeutungen: hier ist die multivariate Normalverteilung eine Matrix-Verteilung.
  2. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 89.
  3. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 90.
  4. Kleiber, Stoyanov: Multivariate distributions and the moment problem, Journal of Multivariate Analysis, Volume 113, January 2013, Seiten 7–18, doi:10.1016/j.jmva.2011.06.001.