Satz von Sanov

Teilgebiet der Stochastik

Der Satz von Sanov ist ein Resultat des mathematischen Teilgebiets der Stochastik. Er ist eine zentrale Aussage der Theorie der großen Abweichungen (engl. large deviations theory) und ist eng mit der Informationstheorie verbunden. Der Satz formalisiert die Intuition, dass die Gesamtwahrscheinlichkeit eines seltenen Ereignisses von der Wahrscheinlichkeit des plausibelsten Teilereignisses dominiert wird.[1] Er ist nach dem russischen Mathematiker Ivan Nikolajewitsch Sanov (1919–1968) benannt.[2]

Einleitendes Beispiel

Bearbeiten

Sei   eine Folge von fairen Münzwürfen, modelliert als i.i.d. Bernoulli-Variablen mit Erfolgswahrscheinlichkeit   also  . „Kopf“ entspreche dabei der  , „Zahl“ der  . Das starke Gesetz der großen Zahlen besagt, dass das arithmetische Mittel

 

fast sicher gegen den Erwartungswert   konvergiert. Es trifft aber keine Aussage über die Geschwindigkeit der Konvergenz. Typischerweise wird der Mittelwert nahe bei   sein, es ist aber nicht ausgeschlossen, dass er für ein beliebig großes   immer noch stark vom Grenzwert abweicht, also bspw.   gilt. Der Satz von Sanov quantifiziert, wie schnell die Wahrscheinlichkeit einer solchen Abweichung gegen   geht. Über das asymptotische Verhalten hinaus kann man sich auch fragen, wie wahrscheinlich der Mittelwert für ein konkretes   abweicht. In seinem berühmten Werk The Doctrine of Chances behandelte Abraham de Moivre beispielsweise ein Gedankenexperiment von   Münzwürfen. Wie hoch ist die Wahrscheinlichkeit für  ?

Solche Fragen lassen sich wie folgt maßtheoretisch formalisieren: Sei   die Menge aller Wahrscheinlichkeitsmaße auf  , also die Gesamtheit aller Bernoulli-Verteilungen. Für jede positive ganze Zahl   sei

 

die empirische Verteilung der ersten   Münzwürfe, wobei   das Dirac-Maß an der Stelle   bezeichne. Es gilt dann stets   und nach dem Gesetz der großen Zahlen konvergiert  . Außerdem sei   die Teilmenge aller Verteilungen mit Erwartungswert mindestens  . Dann ist die Wahrscheinlichkeit  , dass das zufällige Maß   in   liegt, genau die Wahrscheinlichkeit  .

Endlicher Fall

Bearbeiten

Sei   eine endliche Menge und   die Menge aller Wahrscheinlichkeitsmaße auf   versehen mit der schwachen Topologie (vgl. Konvergenz in Verteilung). Sei weiter   eine Folge von i.i.d. Zufallsvariablen, wobei   gemäß einem festen   verteilt sei, und sei   die empirische Verteilung von  . Für ein Wahrscheinlichkeitsmaß   bezeichne schließlich   die Kullback-Leibler-Divergenz von   zu  .

Unter diesen Voraussetzungen besagt der Satz von Sanov, dass für jede Menge   gilt:[3][4]

 

Hierbei ist   das Innere und   der Abschluss von  . Falls außerdem die linke und die rechte Seite der Ungleichungskette übereinstimmen, dann existiert der Grenzwert und es gilt:

 

Bemerkungen

Bearbeiten
  • Die konkrete Wahl der Basis des Logarithmus ist unerheblich, es muss aber darauf geachtet werden, dass dieselbe wie bei der Divergenz verwendet wird (vgl. Shannon (Einheit)).
  • Aus der Endlichkeit von   und der Stetigkeit von   folgt  , das Infimum über das Innere von   kann aber echt größer sein.
  • Falls   konvex ist, dann ist das Maß   wohldefiniert und wird die Informationsprojektion (engl. information projection) von   auf   genannt.[5]
  • Bis auf sublineare additive Terme im Exponenten (d. h. subexponentielle Faktoren) gilt asymptotisch  , wenn die Divergenz in Nat angegeben ist. Es lässt sich sogar zeigen:[4] Für jedes   gilt  
  • Das empirische Maß   kann nicht beliebige Werte annehmen, sondern liegt stets in  , die Elemente von   werden Typen genannt. Die Wahrscheinlichkeit, dass   ein konkreter Typ   ist, lässt sich durch   abschätzen.[4]

Insgesamt wird also die Wahrscheinlichkeit   von demjenigen Typ   dominiert, der die kleinste Divergenz von der „wahren“ Verteilung   hat. Jeder andere Typ   mit   hat eine exponentiell kleinere Wahrscheinlichkeit.

Allgemeiner Fall

Bearbeiten

Der Satz von Sanov lässt sich erheblich verallgemeinern, insbesondere ist die Endlichkeit der Grundmenge unnötig. Sei nun   ein beliebiger polnischer Raum (bspw. der  ),   die Menge aller Wahrscheinlichkeitsmaße auf   mit der schwachen Topologie und wieder   eine Folge von i.i.d.  -wertigen Zufallsvariablen mit   für ein  . Jedes absolut stetige Maß   besitzt eine Radon-Nikodým-Dichte   bezüglich  , die Divergenz ist dann durch   erklärt, für alle übrigen Maße kann man gefahrlos   setzen. Beachte, dass die empirischen Maße   offensichtlich immer absolut stetig bezüglich   sind.

Mit diesen angepassten Voraussetzungen besagt der Satz von Sanov erneut, dass für jede Menge   gilt:[1][3]

 

Falls   der Abschluss seines Inneren ist, dann gilt:

 

Literatur

Bearbeiten

Einzelnachweise

Bearbeiten
  1. a b Ramon van Handel: Stochastic Analysis Seminar – Lecture 3. Sanov’s Theorem. In: Princeton.edu. Princeton University, Princeton, NJ, USA, 10. Oktober 2013, archiviert vom Original am 29. November 2020; abgerufen am 6. Januar 2023.
  2. Hugo Touchette: Large Deviation Theory: History, Sources, References, and Pointers. In: AppliedMaths.SUN.ac.za. Division of Applied Mathematics, Stellenbosch University, Stellenbosch, South Africa, abgerufen am 6. Januar 2023.
  3. a b Ivan N. Sanov: On the Probability of Large Deviations of Random Variables. In: North Carolina State University, Departement of Statistics (Hrsg.): Institute of Statistics Mimeo Series. Nr. 192, 1958 (englisch, ncsu.edu [abgerufen am 6. Januar 2023] russisch: О вероятности больших отклонений случайных величин. 1957. Übersetzt von Dana E.A. Quade).
  4. a b c Thomas M. Cover, Joy A. Thomas: Elements of Information Theory. 2. Auflage. John Wiley & Sons, Hoboken, NJ, USA 2006, S. 362 f.
  5. Imre Csiszár, František Matúš: Information Projections Revisited. In: IEEE Transaction on Information Theory. Band 49, Nr. 6, 2003, S. 1474–1490, doi:10.1109/TIT.2003.810633.