Bedingter Erwartungswert

Begriff aus der Wahrscheinlichkeitstheorie und Statistik
(Weitergeleitet von Bedingte Erwartung)

Der bedingte Erwartungswert beschreibt in der Wahrscheinlichkeitstheorie und Statistik den Erwartungswert einer Zufallsvariablen unter der Voraussetzung, dass noch zusätzliche Informationen über den Ausgang des zugrunde liegenden Zufallsexperiments verfügbar sind. Dabei kann die Bedingung beispielsweise darin bestehen, dass bekannt ist, ob ein gewisses Ereignis eingetreten ist oder welche Werte eine weitere Zufallsvariable angenommen hat; abstrakt kann die Zusatzinformation als Unterraum des zugrunde liegenden Ereignisraums aufgefasst werden.

Abstrakte bedingte Erwartungswerte und als Spezialfall davon bedingte Wahrscheinlichkeiten verallgemeinern in der Wahrscheinlichkeitstheorie und Statistik den elementaren Begriff der bedingten Wahrscheinlichkeit.

Bedingte Erwartungswerte spielen eine wichtige Rolle in der modernen Stochastik, beispielsweise bei der Untersuchung stochastischer Prozesse, und werden unter anderem bei der Definition von Martingalen verwendet.

Interpretation Bearbeiten

Die Bildung des bedingten Erwartungswertes ist gewissermaßen eine Glättung einer Zufallsvariablen auf einer Teil-σ-Algebra. σ-Algebren modellieren verfügbare Information, und eine geglättete Version der Zufallsvariable, die schon auf einer Teil-σ-Algebra messbar ist, enthält weniger Information über den Ausgang eines Zufallsexperimentes. Mit der Bildung der bedingten Erwartung geht eine Reduktion der Beobachtungstiefe einher, die bedingte Erwartung reduziert die Information über eine Zufallsvariable auf eine in Hinsicht der Messbarkeit einfachere Zufallsvariable, ähnlich wie als Extremfall der Erwartungswert einer Zufallsvariablen die Information auf eine einzelne Zahl reduziert.

Geschichte Bearbeiten

Das in einigen Aspekten sehr alte Konzept (schon Laplace hat bedingte Dichten berechnet) wurde von Andrei Kolmogorow 1933 unter Verwendung des Satzes von Radon-Nikodym formalisiert. In Arbeiten von Paul Halmos 1950 und Joseph L. Doob 1953 wurden bedingte Erwartungen auf die heute übliche Form von Teil-σ-Algebren auf abstrakten Räumen übertragen.[1]

Einleitung Bearbeiten

Wenn ein Ereignis   mit   gegeben ist, gibt die bedingte Wahrscheinlichkeit

 

an, wie wahrscheinlich das Ereignis   ist, wenn man die Information hat, dass das Ereignis   eingetreten ist. Entsprechend gibt der bedingte Erwartungswert

 

an, welchen Wert man für die Zufallsvariable   im Mittel erwartet, wenn man die Information hat, dass das Ereignis   eingetreten ist. Hierbei ist   die Indikatorfunktion von  , also die Zufallsvariable, die den Wert   annimmt, wenn   eintritt, und  , wenn nicht.

Aus der Gleichung folgt, dass die Radon-Nikodým-Dichte des bedingten Wahrscheinlichkeitsmaßes   bezüglich des unbedingten Wahrscheinlichkeitsmaßes   exakt   ist.

Beispiel:   sei die Augenzahl beim Werfen eines regelmäßigen Würfels und   sei das Ereignis, eine 5 oder 6 zu würfeln. Dann ist

 .

Dieser elementare Begriff von bedingten Wahrscheinlichkeiten und Erwartungswerten ist jedoch oft nicht ausreichend. Gesucht sind häufig vielmehr bedingte Wahrscheinlichkeiten und bedingte Erwartungswerte in der Form

(a)      bzw.    ,

wenn man weiß, dass eine Zufallsvariable   einen Wert   hat,

(b)      bzw.    ,

wenn man den bei (a) gefundenen Wert als Zufallsvariable (in Abhängigkeit von  ) betrachtet,

(c)      bzw.    ,

wenn man für jedes Ereignis in einer σ-Algebra   die Information hat, ob es eingetreten ist oder nicht.

Die Ausdrücke in (b) und (c) sind im Gegensatz zu (a) selbst Zufallsvariablen, da sie noch von der Zufallsvariable   bzw. der Realisierung der Ereignisse in   abhängen.   wird oft Erwartungswert von Y unter der Bedingung B gesprochen.   und   wird Erwartungswert von Y gegeben X bzw. Erwartungswert von Y gegeben   gesprochen.

Die angegebenen Varianten von bedingten Wahrscheinlichkeiten und Erwartungswerten sind alle miteinander verwandt. Tatsächlich genügt es, nur eine Variante zu definieren, denn alle lassen sich voneinander ableiten:

  • Bedingte Wahrscheinlichkeiten und bedingte Erwartungswerte beinhalten das gleiche: Bedingte Erwartungswerte lassen sich, genau wie gewöhnliche Erwartungswerte, als Summen oder Integrale aus bedingten Wahrscheinlichkeiten berechnen.[2] Umgekehrt ist die bedingte Wahrscheinlichkeit eines Ereignisses einfach der bedingte Erwartungswert der Indikatorfunktion des Ereignisses:  .
  • Die Varianten in (a) und (b) sind äquivalent. Die Zufallsvariable   weist für das Ergebnis   den Wert   auf, d. h. man erhält für   den Wert  , wenn man für   den Wert   beobachtet. Umgekehrt kann man, wenn   gegeben ist, immer einen von   abhängigen Ausdruck   finden, so dass diese Beziehung erfüllt ist.[3] Entsprechendes gilt für bedingte Erwartungswerte.
  • Die Varianten in (b) und (c) sind ebenfalls äquivalent, weil man   als die Menge aller Ereignisse der Form   wählen kann (die von   erzeugte σ-Algebra  ), und umgekehrt   als die Familie  .[4]

Diskreter Fall Bearbeiten

Wir betrachten hier den Fall, dass   für alle Werte   von   gilt. Dieser Fall ist besonders einfach zu behandeln, weil die elementare Definition uneingeschränkt anwendbar ist:

 

Die Funktion   (wobei   das Argument bezeichnet) besitzt alle Eigenschaften eines Wahrscheinlichkeitsmaßes, es handelt sich um eine sogenannte reguläre bedingte Wahrscheinlichkeit. Die reguläre bedingte Verteilung   einer Zufallsvariable   ist daher ebenfalls eine ganz gewöhnliche Wahrscheinlichkeitsverteilung. Der Erwartungswert dieser Verteilung ist der bedingte Erwartungswert von  , gegeben  :

 

Ist   ebenfalls diskret, so gilt

 

wobei über alle   im Wertebereich von   summiert wird.

Beispiel Bearbeiten

  und   seien die Augenzahlen bei zwei unabhängigen Würfen mit einem regelmäßigen Würfel und   die Augensumme. Die Verteilung von   ist gegeben durch  ,  . Wenn wir aber das Ergebnis   des ersten Wurfs kennen und wissen, dass wir z. B. den Wert   gewürfelt haben, erhalten wir die bedingte Verteilung

 .

Der Erwartungswert dieser Verteilung, der bedingte Erwartungswert von  , gegeben  , ist

 .

Allgemeiner gilt für beliebige Werte   von  

 .

Wenn wir für   den Wert von   einsetzen, erhalten wir den bedingten Erwartungswert von  , gegeben  :

 .

Dieser Ausdruck ist eine Zufallsvariable; wenn das Ergebnis   eingetreten ist, weist   den Wert   auf und   den Wert

 .

Satz über die totale Wahrscheinlichkeit Bearbeiten

Die Wahrscheinlichkeit eines Ereignisses   lässt sich durch Zerlegen nach den Werten   von   berechnen:

 

Allgemeiner gilt für jedes Ereignis   in der σ-Algebra   die Formel

 .

Mithilfe der Transformationsformel für das Bildmaß erhält man die äquivalente Formulierung

 .

Allgemeiner Fall Bearbeiten

Im allgemeinen Fall ist die Definition weit weniger intuitiv als im diskreten Fall, weil man nicht mehr voraussetzen kann, dass die Ereignisse, auf die man bedingt, eine Wahrscheinlichkeit   haben.

Ein Beispiel Bearbeiten

Wir betrachten zwei unabhängige standardnormalverteilte Zufallsvariablen   und  . Ohne große Überlegung kann man auch hier den bedingten Erwartungswert, gegeben  , der Zufallsvariablen   angeben, d. h. den Wert, den man im Mittel für den Ausdruck   erwartet, wenn man   kennt:

    bzw.    

Wie zuvor ist   selbst eine Zufallsvariable, für deren Wert nur die von   erzeugte σ-Algebra   entscheidend ist. Setzt man etwa  , also  , so erhält man ebenfalls  .

Die Problematik ergibt sich aus folgender Überlegung: Die angegebenen Gleichungen gehen davon aus, dass   für jeden einzelnen Wert von   standardnormalverteilt ist. Tatsächlich könnte man aber auch annehmen, dass   im Fall   konstant den Wert   hat und nur in den übrigen Fällen standardnormalverteilt ist: Da das Ereignis   die Wahrscheinlichkeit   hat, wären   und   insgesamt immer noch unabhängig und standardnormalverteilt. Man erhielte aber   statt  . Das zeigt, dass der bedingte Erwartungswert nicht eindeutig festgelegt ist, und dass es nur sinnvoll ist, den bedingten Erwartungswert für alle Werte von   simultan zu definieren, da man ihn für einzelne Werte beliebig abändern kann.

Der Ansatz von Kolmogorow Bearbeiten

Nachdem sich die elementare Definition nicht auf den allgemeinen Fall übertragen lässt, stellt sich die Frage, welche Eigenschaften man beibehalten möchte und auf welche man zu verzichten bereit ist. Der heute allgemein übliche Ansatz, der auf Kolmogorow (1933) zurückgeht[5] und der sich insbesondere in der Theorie der stochastischen Prozesse als nützlich erwiesen hat, verlangt nur zwei Eigenschaften:

(1)   soll eine messbare Funktion von   sein. Auf die σ-Algebra   übertragen bedeutet dies, dass   eine  -messbare Zufallsvariable sein soll.

(2) In Analogie zum Satz über die totale Wahrscheinlichkeit soll für jedes   die Gleichung

 

erfüllt sein.

Nicht gefordert wird unter anderem

  • dass bedingte Wahrscheinlichkeiten eindeutig festgelegt sind,
  • dass   stets ein Wahrscheinlichkeitsmaß ist,
  • die Eigenschaft   im Fall   gilt.

Für bedingte Erwartungswerte hat (2) die Form

 

für alle Mengen  , für die die Integrale definiert sind. Mit Indikatorfunktionen lässt sich diese Gleichung schreiben als

 .

In dieser Form wird die Gleichung in der folgenden Definition verwendet.

Formale Definition Bearbeiten

 
Glättungseigenschaft:   ist hier die Gleichverteilung auf  ,   die von den Intervallen mit Endpunkten 0, ¼, ½, ¾, 1 erzeugte σ-Algebra und   die von den Intervallen mit Endpunkten 0, ½, 1 erzeugte σ-Algebra. Die Bildung des bedingten Erwartungswertes bewirkt eine Glättung innerhalb der durch die σ-Algebren beschriebenen Bereiche.

Gegeben sei ein Wahrscheinlichkeitsraum   und eine Teil-σ-Algebra  .

(1)   sei eine Zufallsvariable, deren Erwartungswert existiert. Der bedingte Erwartungswert von  , gegeben  , ist eine Zufallsvariable  , die die beiden folgenden Bedingungen erfüllt:

  •   ist  -messbar und
  • für alle   gilt  .

Die Menge aller Ergebnisse (d. h. aller Elemente von  ), hinsichtlich derer sich zwei bedingte Erwartungswerte von   gegeben   („Versionen des bedingten Erwartungswerts“) unterscheiden, ist eine (in   enthaltene) Nullmenge. Dadurch lässt sich die einheitliche Schreibweise   für einen bedingten Erwartungswert   von   gegeben   rechtfertigen.

Die Schreibweise   bezeichnet den bedingten Erwartungswert von  , wobei die von der Zufallsvariablen   erzeugte σ-Algebra   gegeben ist.

(2) Die bedingte Wahrscheinlichkeit eines Ereignisses  , gegeben  , ist definiert als die Zufallsvariable

 ,

d. h. als der bedingte Erwartungswert der Indikatorfunktion von  .

Da die bedingten Wahrscheinlichkeiten   verschiedener Ereignisse   somit ohne Bezug zueinander definiert und nicht eindeutig festgelegt sind, muss   im Allgemeinen kein Wahrscheinlichkeitsmaß sein. Wenn dies jedoch der Fall ist, d. h. wenn man die bedingten Wahrscheinlichkeiten  ,   zu einem stochastischen Kern   von   nach   zusammenfassen kann,

      für alle   ,

spricht man von regulärer bedingter Wahrscheinlichkeit. Eine konkrete Version des bedingten Erwartungswertes ist dann als Integral

 

gegeben.

Faktorisierung: Der bedingte Erwartungswert  , der als eine Zufallsvariable (also eine Funktion von  ) definiert ist, lässt sich auch als eine Funktion von   darstellen: Es gibt eine messbare Funktion  , so dass

      für alle   .

Damit kann man formal auf einzelne Werte bedingte Erwartungswerte definieren:

 .

Bei der Verwendung solcher Ausdrücke ist wegen der fehlenden Eindeutigkeit im allgemeinen Fall besondere Vorsicht geboten.

Existenz: Die allgemeine Existenz von bedingten Erwartungswerten für integrierbare Zufallsvariablen (Zufallsvariablen, die einen endlichen Erwartungswert besitzen), also insbesondere von bedingten Wahrscheinlichkeiten, folgt aus dem Satz von Radon-Nikodým; die Definition besagt nämlich nichts anderes, als dass   eine Dichte des signierten Maßes   bezüglich des Maßes   ist, beide definiert auf dem Messraum  . Die Definition lässt sich noch geringfügig verallgemeinern, so dass man auch Fälle wie   für eine Cauchy-verteilte Zufallsvariable erfassen kann.[2]

Reguläre bedingte Wahrscheinlichkeiten, auch in faktorisierter Form, existieren in polnischen Räumen mit der Borel-σ-Algebra, allgemeiner gilt: Ist   eine beliebige Zufallsvariable mit Werten in einem polnischen Raum, so existiert eine Version der Verteilung   in der Form eines stochastischen Kerns  :

      für alle   

Spezialfälle Bearbeiten

(1) Für die triviale σ-Algebra   ergeben sich einfache Erwartungswerte und Wahrscheinlichkeiten:

     für alle   
     für alle   

Entsprechend gilt   und   für alle   bei Bedingen auf den Wert einer konstanten Zufallsvariable  .

(2) Einfache σ-Algebren: Ist   mit  , und besitzt   außer sich selbst und der leeren Menge keine Teilmengen in  , so stimmt der Wert von   auf   mit der herkömmlichen bedingten Wahrscheinlichkeit überein:

      für fast alle   

Das zeigt, dass die oben aufgeführten Berechnungen im diskreten Fall mit der allgemeinen Definition konsistent sind.

(3) Rechnen mit Dichten: Ist   eine beschränkte Dichtefunktion der gemeinsamen Verteilung von Zufallsvariablen  , so ist

 

eine Dichte einer regulären bedingten Verteilung   in der faktorisierten Form und für den bedingten Erwartungswert gilt

 .

(4) Auch in den folgenden Fällen lassen sich reguläre bedingte Verteilungen angeben:

  • wenn   unabhängig von   ist, in der Form  ,
  • wenn    -messbar ist, in der Form  ,
  • für das Paar  , wenn    -messbar ist, in der Form  , sofern zur Berechnung des Ausdrucks auf der rechten Seite eine reguläre bedingte Verteilung von   verwendet wird.

Allgemeine Definition Bearbeiten

Sei   ein Banachraum,   ein Wahrscheinlichkeitsraum und   eine darauf definierte Bochner-integrierbare  -wertige Zufallsvariable. Sei   eine Sub-σ-Algebra.

Der bedingte Erwartungswert von   gegeben   ist die bis auf eine  -Nullmenge eindeutige und integrierbare  -wertige  -messbare Zufallsvariable  , so dass

 

für alle   erfüllt ist.[6][7]

Der bedingte Erwartungswert wird manchmal auch mit   notiert.

Rechenregeln Bearbeiten

Alle folgenden Aussagen gelten nur fast sicher ( -fast überall), soweit sie bedingte Erwartungswerte enthalten. Anstelle von   kann man auch eine Zufallsvariable schreiben.

  • Herausziehen unabhängiger Faktoren:
    • Ist   unabhängig von  , so gilt  .
    • Ist   unabhängig von   und von  , so gilt  .
    • Sind   unabhängig,   unabhängig,   von   und   von   unabhängig, so gilt  
  • Herausziehen bekannter Faktoren:
    • Ist    -messbar, so gilt  .
    • Ist    -messbar, so gilt  .
  • Totaler Erwartungswert:  .
  • Turmeigenschaft: Für Teil-σ-Algebren   gilt  .
  • Linearität: Es gilt   und   für  .
  • Monotonie: Aus   folgt  .
  • Monotone Konvergenz: Aus   und   folgt  .
  • Dominierte Konvergenz: Aus   und   mit   folgt  .
  • Lemma von Fatou: Aus   folgt  .
  • Jensensche Ungleichung: Ist   eine konvexe Funktion, so gilt  .
  • Bedingte Erwartungswerte als  -Projektionen: Die vorherigen Eigenschaften (insbesondere das Herausziehen bekannter Faktoren und die Turmeigenschaft) implizieren für  -messbares  
     ,
d. h. der bedingte Erwartungswert   ist im Sinne des Skalarprodukts von L2(P) die orthogonale Projektion von   auf den Untervektorraum der  -messbaren Funktionen, d. h.   ist die beste Approximation von   durch eine  -messbare Funktion von  . Die Definition und der Beweis der Existenz der bedingten Erwartung kann über diesen Zugang auch auf der Theorie der Hilbert-Räume und dem Projektionssatz aufgebaut werden.
  • Bedingte Varianz: Mithilfe bedingter Erwartungswerte kann analog zur Definition der Varianz als mittlere quadratische Abweichung vom Erwartungswert auch die bedingte Varianz   betrachtet werden. Es gelten der Verschiebungssatz
 
sowie die sogenannte Varianzzerlegung
 .
  • Martingalkonvergenz: Für eine Zufallsvariable  , die einen endlichen Erwartungswert besitzt, gilt  , wenn entweder   eine aufsteigende Folge von Teil-σ-Algebren ist und   oder wenn   eine absteigende Folge von Teil-σ-Algebren ist und  .

Weitere Beispiele Bearbeiten

(1) Wir betrachten das Beispiel aus dem diskreten Fall von oben.   und   seien die Augenzahlen bei zwei unabhängigen Würfen mit einem regelmäßigen Würfel und   die Augensumme. Die Berechnung des bedingten Erwartungswerts von  , gegeben  , vereinfacht sich mithilfe der Rechenregeln; zunächst gilt

 .

Weil   eine messbare Funktion von   ist und   unabhängig von   ist, gilt   und  . Also erhalten wir

 .

(2) Wenn   und   unabhängig und Poisson-verteilt mit Parametern   und   sind, dann ist die bedingte Verteilung von  , gegeben  , eine Binomialverteilung mit den Parametern   und  , das heißt

 

Es gilt also   und somit  .

Literatur Bearbeiten

  • Achim Klenke: Wahrscheinlichkeitstheorie. 3. Auflage. Springer-Verlag, Berlin Heidelberg 2013, ISBN 978-3-642-36017-6.
  • Christian Hesse: Angewandte Wahrscheinlichkeitstheorie. 1. Auflage. Vieweg, Wiesbaden 2003, ISBN 3-528-03183-2.

Einzelnachweise und Anmerkungen Bearbeiten

  1. Olav Kallenberg: Foundations of Modern Probability. 2. Ausgabe. Springer, New York 2002, ISBN 0-387-95313-2, S. 573.
  2. a b Sehr allgemein kann man beispielsweise setzen    fast überall.
  3. Diese Faktorisierung ist immer als messbare Funktion möglich. Sie ist im Allgemeinen nicht eindeutig, wenn   nicht surjektiv ist.
  4. Die mathematische Formulierung geht von folgender Abstraktion des Begriffs „bekannt“ aus: Wenn die Realisierung einer Zufallsvariable oder von Ereignissen bekannt ist, ist nicht automatisch jede davon abhängige, sondern nur jede messbar davon abhängige Größe ebenfalls bekannt (oder genauer nur solche, die eine σ-Algebra erzeugen, die eine Teilmenge der anderen ist). In diesem Sinne eignen sich σ-Algebren zur Beschreibung von verfügbarer Information: Die σ-Algebra   besteht aus den Ereignissen, deren Realisierung prinzipiell bekannt ist nach Erhalt der Information über den Wert von  . Die Menge   wird allgemein als eine σ-Algebra angenommen.
  5. A. Kolmogoroff: Grundbegriffe der Wahrscheinlichkeitsrechnung. Springer, Berlin 1933. In der Einleitung des Buches ist die Theorie der bedingten Wahrscheinlichkeiten und Erwartungen als wesentliche Neuerung erwähnt. Für die Definition der bedingten Wahrscheinlichkeit bezüglich einer Zufallsvariable   verwendet Kolmogorow (S. 42) die Gleichung  , d. h. , die für jede Wahl von   mit   erfüllt sein soll (für das Bedingen auf   wird die elementare Definition verwendet). Im anschließenden Beweis der Existenz und Eindeutigkeit zeigt Kolmogorow, dass nach Multiplikation mit   die linke Seite der Gleichung mit   übereinstimmt, die rechte mit  , was den oben angegebenen Ausdrücken entspricht, er arbeitet dann allerdings auf der Ebene des Bildraums von   weiter. Bei bedingten Erwartungen ist die Vorgehensweise ähnlich.
  6. Giuseppe da Prato und Jerzy Zabczyk: Stochastic Equations in Infinite Dimensions. Hrsg.: Cambridge University Press. 2014, S. 26, doi:10.1017/CBO9781107295513 (auf einem separablen Banachraum definiert).
  7. Tuomas Hytönen, Jan van Neerven, Mark Veraar und Lutz Weis: Analysis in Banach Spaces, Volume I: Martingales and Littlewood-Paley Theory. Hrsg.: Springer Cham. 2016, doi:10.1007/978-3-319-48520-1 (auf allgemeinen Banachräumen).