Suffiziente Statistik

In der mathematischen Statistik ist eine suffiziente Statistik, auch erschöpfende Statistik genannt, ist eine Statistik, die alle relevante Information bezüglich des unbekannten Parameters aus der Zufallsstichprobe enthält.[1] Aus maßtheoretischer Sicht ist Suffizienz bezüglich eines Modells eine mögliche Eigenschaft messbarer Funktionen, die aus dem Stichprobenraum in einen beliebigen Messraum abbilden. Man charakterisiert dabei solche Abbildungen als suffizient (auch: erschöpfend), die einen hochdimensionalen Datenvektor in eine einfachere Form transformieren, ohne dabei wesentliche Informationen über die zu Grunde liegende Wahrscheinlichkeitsverteilung zu verlieren. Gegenstück der Suffizienz ist die Verteilungsfreiheit, sie entspricht einer uninformativen Transformation.

Anschaulich formuliert sind also genau solche Statistiken suffizient, die sämtliche Informationen über die zu schätzenden Parameter des Modells beinhalten, die in der Stichprobe enthalten sind.

Die Suffizienz zählt neben der Erwartungstreue und der Äquivarianz/Invarianz zu den klassischen Reduktionsprinzipien der mathematischen Statistik. Ihre Bedeutung erhält die Suffizienz durch den Satz von Rao-Blackwell. Aus ihm folgt, dass "optimale" Schätzer im Bezug auf den mittleren quadratischen Fehler oder entsprechende Verallgemeinerungen immer in der Menge der suffizienten Schätzer zu finden sind.

DefinitionBearbeiten

Formal seien   der Stichprobenraum,   ein beliebiger Messraum und   eine messbare Abbildung zwischen den beiden Räumen. Ferner sei   eine Zufallsvariable auf dem Stichprobenraum, deren Verteilung aus einer Familie von Wahrscheinlichkeitsmaßen   stammt.   heißt dann suffizient für die Familie   falls die Verteilung von   nicht von   abhängt.

Allgemeiner lässt sich die Suffizienz einer Statistik mittels der Suffizienz von σ-Algebren definieren: Eine Statistik   heißt suffizient, oder erschöpfend wenn die von ihr erzeugte σ-Algebra eine suffiziente σ-Algebra ist.

Beispiel: BinomialverteilungBearbeiten

Ein einfaches Beispiel für suffiziente Statistiken erhalten wir bei der Untersuchung identisch unabhängig Bernoulli-verteilter Zufallsvariablen. Das zugrundeliegende Modell ist also ein Bernoulli-Prozess. Die Zähldichte der Zufallsvariable   ist in diesem Fall durch   gegeben, wobei die   entweder 0 oder 1 sind. Man beachte, dass das Zählmaß auf   endlich (insbesondere also  -endlich) ist und wegen der Existenz der Dichten die Klasse dominiert. Daher erkennt man anhand der Neyman-Charakterisierung, dass   suffizient für   ist.

Mithilfe der Definition zeigt man die Suffizienz von  , indem man   berechnet. Benutzt man nun bedingte Wahrscheinlichkeiten erhält man:

 .

Diese bedingte Dichte ist nun unabhängig von   und somit ist   suffizient.

Heuristisch gesprochen genügt es also, an Stelle des gesamten Datenvektors bloß die Anzahl der Erfolge in diesem Experiment zu kennen, um alle Informationen über den unbekannten Parameter   zu erhalten.

Sätze über Suffizienz bei dominierten VerteilungsklassenBearbeiten

Satz von Halmos-SavageBearbeiten

Der Satz von Halmos-Savage liefert ein Suffizienzkriterium unter der Annahme, dass die Verteilungsklasse dominiert ist. Lassen sich dann abzählbar unendlich viele Maße der Verteilungsklasse zu einem Maß   kombinieren, so dass dieses die Verteilungsklasse dominiert und jedes Wahrscheinlichkeitsmaß der Verteilungsklasse eine  -messbare Dichte bezüglich   besitzt, dann ist   eine suffiziente σ-Algebra.

Neyman-KriteriumBearbeiten

Unter der Voraussetzung, dass   eine dominierte Verteilungsklasse ist, ist eine Statistik   genau dann suffizient, wenn messbare Funktionen   und   existieren, so dass die Dichte   wie folgt zerlegt werden kann:   Diese Charakterisierung der Suffizenz geht auf Jerzy Neyman zurück. Insbesondere sind bijektive Transformationen suffizienter Statistiken wieder suffizient. Das Neyman-Kriterium leitet sich aus dem Satz von Halmos-Savage ab, ist aber leichter zu handhaben.

Weitere SuffizienzbegriffeBearbeiten

MinimalsuffizienzBearbeiten

Die Minimalsuffizienz ist eine stärkere Forderung als die Suffizienz, die ebenfalls für Statistiken und σ-Algebren definiert wird. Sie stellt die Frage nach der maximal möglichen Datenkompression, also nach einer kleinstmöglichen suffizienten σ-Algebra.

Starke SuffizienzBearbeiten

Die starke Suffizienz ist eine Abwandlung des herkömmlichen Suffizienzbegriffes, die mittels Markow-Kernen definiert wird. Für borelsche Räume stimmen starke Suffizienz und Suffizienz überein.

Wichtige SätzeBearbeiten

WeblinksBearbeiten

LiteraturBearbeiten

EinzelnachweiseBearbeiten

  1. Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 41.