Suffiziente Statistik

Statistik, die alle relevante Information bezüglich des unbekannten Parameters aus der Zufallsstichprobe enthält

Eine suffiziente Statistik (erschöpfende Statistik) ist in der mathematischen Statistik eine Statistik, die bezüglich der unbekannten Parameter (oder der unbekannten Wahrscheinlichkeitsverteilung) alle relevante Information aus der Zufallsstichprobe enthält.[1] (→ Abschnitt Hintergrund und für eine formale Definition Abschnitt Definition).

Mit Hilfe einer suffizienten Statistik kann die Suche bzw. Konstruktion von für die Fragestellung geeigneten Statistiken auf jene Statistiken reduziert werden, die sich mit Hilfe der suffizienten Statistik funktional konstruieren lassen. Diese Reduktion auf funktionale Konstruktionen aus einer speziellen Statistik heraus kann bei Verwendung einer suffizienten Statistik ohne relevanten Informationsverlust vorgenommen werden.

Eine suffiziente Statistik kann auch zu einer Reduktion der Datenmenge beitragen, ohne dass dabei relevante Information verloren wird.

Hintergrund Bearbeiten

Für ein statistisches Zufallsexperiment werden im Statistischen Modell die Ergebnisse von Zufallsstichproben als Realisierungen von Zufallsvariablen   aufgefasst. Diese Zufallsvariablen, und somit die Ergebnisse des Experiments, können maximal jene Information liefern, die maßtheoretisch am Ereignisraum durch die von den Zufallsvariablen   induzierte Initial-σ-Algebra   beschrieben wird.

Eine Statistik  , zum Beispiel ein Schätzer zum Schätzen von Parametern, würde typischerweise mit   zusammengesetzt, um die Komposition   zu liefern. Ergebnisse   (als Realisierung von  ) würden mit   zu   weiterverarbeitet werden, die Komposition   selber dient dazu, diese Verwendung von   (zum Beispiel den Schätzvorgang) im Rahmen des Statistischen Modells theoretischerseits zu beurteilen.

Aufgrund des Faktorisierungslemmas der Maßtheorie ist   insbesondere auch  -messbar, die von der Komposition   induzierte σ-Algebra   muss aber nicht mit   übereinstimmen, könnte also je nach der Statistik   und je nach Verhältnis der beiden σ-Algebren zueinander einen anderen Informationsgehalt haben.

(Nicht-)Beispiel 1 Bearbeiten

Begleitendes Beispiel 1 (radikale Reduktion mit Informationsverlust): Würde man mit   die Nullfunktion wählen, also jede Stichprobe nur auf Null abbilden, dann wäre die zusammengesetzte Funktion   ebenfalls die konstante Nullfunktion. Die von ihr induzierte initiale σ-Algebra wäre nur trivial,   und wäre unter allen möglichen σ-Algebren die gröbste, liefert also keinerlei Auflösung in feinere Detailinformation. Man hätte also alle Information verloren, die man mit einer feineren σ-Algebra vielleicht erhalten könnte, gleichzeitig hätte man die gesamte Datenmenge aber auf den einzigen Wert Null alleine reduziert. Man hätte also einerseits eine maximale Reduktion der Datenmenge auf eine einzige Zahl, aber andererseits auch einen maximalen Informationsverlust. Beispiel 1 Ende

"Relevante" Information Bearbeiten

Für die Fragestellungen der Statistik tritt bei einem statistischen Modell   eine Familie   von Wahrscheinlichkeitsmaßen   auf. Informationen sind für die statistische Fragestellung also nur in Bezug auf die Familie   relevant oder irrelevant. Insbesondere interessiert die Frage, ob sich mit Hilfe der verwendeten Statistiken die einzelnen Wahrscheinlichkeitsmaße   aus der Familie   unterscheiden lassen.

Im Zusammenwirken mit σ-Algebren   interessiert also die Einschränkung   der Maße   auf die σ-Algebren.

Grundidee Bearbeiten

Die Grundidee besteht nun darin, beim Suchen nach brauchbaren Statistiken   eine suffiziente Statistik   zu verwenden, um im Raum aller Statistiken mit Hilfe des Faktorisierungslemmas der Maßtheorie und der faktorisierten bedingten Wahrscheinlichkeit die Suche auf Statistiken zu reduzieren, die in dem Sinn einfacher sind, dass sie sich bereits mit Hilfe von   funktional konstruieren lassen, zum Beispiel über eine Zusammensetzung   mit einer weiteren Funktion  . Durch   könnte zum Beispiel eine Daten-Vorverarbeitung für eine Reduktion umgesetzt werden, und nur die vorverarbeiteten Daten werden dann mit anderen Funktionen   "weiterverarbeitet".

Eine solche Reduktion sollte für die betrachteten Wahrscheinlichkeitsmaße   jedenfalls zu keinem Informationsverlust gegenüber der Stichprobe führen, also immer noch maximal informativ sein.

Aus maßtheoretischer Sicht ist also Suffizienz bezüglich eines Modells eine mögliche Eigenschaft messbarer Funktionen  , die aus dem Stichprobenraum in einen beliebigen Messraum abbilden. Man charakterisiert dabei zum Beispiel solche Abbildungen als suffizient (auch: erschöpfend), die einen hochdimensionalen Datenvektor in eine einfachere Form transformieren, ohne dabei wesentliche Informationen über die zu Grunde liegende Wahrscheinlichkeitsverteilung zu verlieren.

Gegenstück der Suffizienz ist die Verteilungsfreiheit, sie entspricht einer uninformativen Transformation.

Anschaulich formuliert sind also solche Statistiken suffizient, die sämtliche Informationen über die zu schätzenden Parameter des Modells beibehalten, die aus der Stichprobe gewonnen werden können.

Die Suffizienz zählt neben der Erwartungstreue und der Äquivarianz/Invarianz zu den klassischen Reduktionsprinzipien der mathematischen Statistik. Ihre Bedeutung erhält die Suffizienz durch den Satz von Rao-Blackwell. Aus ihm folgt, dass „optimale“ Schätzer im Bezug auf den mittleren quadratischen Fehler oder entsprechende Verallgemeinerungen immer in der Menge der suffizienten Schätzer zu finden sind.

Stephen Stigler merkte 1973 an, dass damals das Konzept der Suffizienz in der deskriptiven Statistik unbeliebter wurde, da es stark auf Verteilungsannahmen beruht, allerdings ist es noch immer ein wichtiges Mittel in der Theorie und natürlich in der Schätztheorie und Testtheorie.[2]

Beispiel 2 Bearbeiten

Beispiel 2 (mehrmaliger Münzwurf): Gegeben sei eine gewöhnliche Münze, die unabhängig voneinander n-mal geworfen wird. Das Ergebnis des i-ten Wurfs (Kopf oder Zahl) wird mit einer Bernoulli-verteilten Zufallsvariable   beschrieben. Ein Elementarereignis   des Modells liefere im i-ten Versuch bei "Kopf oben" den Wert  , bei "Zahl oben" den Wert  .

Die Zufallsvariablen   seien unabhängig und identisch Bernoulli-verteilt mit der (uns unbekannten) Wahrscheinlichkeit   für das Auftreten von "Kopf oben", und der Wahrscheinlichkeit   für das Auftreten von "Zahl oben" (bzw. "nicht Kopf oben").

Das gesamte Experiment der n Münzwürfe wird durch die Zufallsvariable (Zufallsvektor)

 

beschrieben.

Angenommen man interessiert sich für die Wahrscheinlichkeit „Kopf oben“ ( ), um zu beurteilen, ob die Münze fair ist. Um den unbekannten Parameter   zu schätzen, würde man   mal das Zufallsexperiment „Wurf der Münze“ durchführen und eine Eins notieren, wenn Kopf oben landet, und eine Null, wenn Zahl oben ist. Aus den Beobachtungswerten

 

würde man für den Parameter   einen Schätzwert berechnen mit

 .

Die Statistik "Anzahl der erhaltenen Köpfe oben"

 

wäre nun eine suffiziente Statistik: Für eine Schätzung des unbekannten Parameters   wird aus den Beobachtungswerten nur die Information benötigt wie oft Kopf oben war. Die ebenfalls in den Beobachtungswerten enthaltene zusätzliche Information, bei welchem der Würfe Kopf oben war, wird jedoch nicht benötigt. Durch die Statistik   wird von den n Zahlen   auf eine einzige Zahl reduziert, nämlich auf deren Summe.

Die für die Schätzung von   verwendete Statistik   ergibt sich funktional aus  , indem man noch durch die Anzahl n der Würfe dividiert. Sie ist also die Zusammensetzung

 .


Wenn es für die Schätzung der unbekannten Parameter (bzw. für die Ermittlung der unbekannten Verteilung  ) ausreichend ist, die Statistik   zu kennen und nicht notwendigerweise alle Beobachtungswerte, dann ist   eine suffiziente Statistik.

Definition Bearbeiten

Es seien   ein statistischer Raum mit Verteilungsfamilie   ,   der Stichprobenraum,   eine Zufallsvariable. Weiters sei   ein beliebiger Messraum und   eine messbare Abbildung. Die Statistik   heißt suffizient für die Familie   (und die Zufallsvariable  ), falls es eine Version der faktorisierten bedingten Verteilung von   gibt, die nicht von   abhängt.

Allgemeiner lässt sich die Suffizienz einer Statistik mittels der Suffizienz von σ-Algebren definieren: Eine Statistik   heißt suffizient, oder erschöpfend wenn die von ihr erzeugte σ-Algebra eine suffiziente σ-Algebra ist.

Beachte, dass eine Suffiziente Statistik nicht unbedingt nur skalarwertig sein muss, sondern auch mehrdimensional oder in allgemeine Mengen gehen kann.

Beispiel: Binomialverteilung Bearbeiten

Ein einfaches Beispiel für suffiziente Statistiken erhalten wir bei der Untersuchung identisch unabhängig Bernoulli-verteilter Zufallsvariablen. Das zugrundeliegende Modell ist also ein Bernoulli-Prozess. Die Zähldichte der Zufallsvariable   ist in diesem Fall durch   gegeben, wobei die   entweder 0 oder 1 sind. Man beachte, dass das Zählmaß auf   endlich (insbesondere also  -endlich) ist und wegen der Existenz der Dichten die Klasse dominiert. Daher erkennt man anhand der Neyman-Charakterisierung, dass   suffizient für   ist.

Mithilfe der Definition zeigt man die Suffizienz von  , indem man   berechnet. Benutzt man nun bedingte Wahrscheinlichkeiten erhält man:

 .

Diese bedingte Dichte ist nun unabhängig von   und somit ist   suffizient.

Heuristisch gesprochen genügt es also, an Stelle des gesamten Datenvektors bloß die Anzahl der Erfolge in diesem Experiment zu kennen, um alle Informationen über den unbekannten Parameter   zu erhalten.

Sätze über Suffizienz bei dominierten Verteilungsklassen Bearbeiten

Satz von Halmos-Savage Bearbeiten

Der Satz von Halmos-Savage liefert ein Suffizienzkriterium unter der Annahme, dass die Verteilungsklasse dominiert ist. Lassen sich dann abzählbar unendlich viele Maße der Verteilungsklasse zu einem Maß   kombinieren, so dass dieses die Verteilungsklasse dominiert und jedes Wahrscheinlichkeitsmaß der Verteilungsklasse eine  -messbare Dichte bezüglich   besitzt, dann ist   eine suffiziente σ-Algebra.

Neyman-Kriterium Bearbeiten

Unter der Voraussetzung, dass   eine dominierte Verteilungsklasse ist, ist eine Statistik   genau dann suffizient, wenn messbare Funktionen   und   existieren, so dass die Dichte   wie folgt zerlegt werden kann:   Diese Charakterisierung der Suffizienz geht auf Jerzy Neyman zurück. Insbesondere sind bijektive Transformationen suffizienter Statistiken wieder suffizient. Das Neyman-Kriterium leitet sich aus dem Satz von Halmos-Savage ab, ist aber leichter zu handhaben.

Weitere Suffizienzbegriffe Bearbeiten

Minimalsuffizienz Bearbeiten

Die Minimalsuffizienz ist eine stärkere Forderung als die Suffizienz, die ebenfalls für Statistiken und σ-Algebren definiert wird. Sie stellt die Frage nach der maximal möglichen Datenkompression, also nach einer kleinstmöglichen suffizienten σ-Algebra.

Starke Suffizienz Bearbeiten

Die starke Suffizienz ist eine Abwandlung des herkömmlichen Suffizienzbegriffes, die mittels Markow-Kernen definiert wird. Für borelsche Räume stimmen starke Suffizienz und Suffizienz überein.

Wichtige Sätze Bearbeiten

Weblinks Bearbeiten

Literatur Bearbeiten

Einzelnachweise Bearbeiten

  1. Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 41.
  2. Stephen Stigler: Studies in the History of Probability and Statistics. XXXII: Laplace, Fisher and the Discovery of the Concept of Sufficiency. In: Biometrika. Vol. 60, Nr. 3, Dezember 1973, S. 439–445, doi:10.1093/biomet/60.3.439, JSTOR:2334992 (englisch).