Diskussion:Schätzmethode (Statistik)

Letzter Kommentar: vor 13 Jahren von Sigbert in Abschnitt Unklar: Wann ist welches Verfahren vorzuziehen?

Ich habe einen großen Teil (Schätzfunktionen) aus Schätzen und Testen übernommen. eine Liste der Autoren findet sich unter [1] bzw. [2] --Chrisqwq 01:06, 21. Mai 2006 (CEST)Beantworten

Wenn hier noch irgendeine Liste von Autoren fehlt bitte melden oder vieleicht selbst reinstellen, war keine Absicht --Chrisqwq 13:36, 15. Jun 2006 (CEST)

Inhalt von Schätzer (Zwischenlager) Bearbeiten

(MFE entfernt, --Cjesch 16:06, 26. Dez. 2006 (CET))Beantworten

Ein Schätzer bzw. eine Schätzfunktion ist in der Statistik eine Funktion auf bekannten Daten, die dazu verwendet wird einen unbekannten Parameter zu schätzen. Eine Schätzung ist dann das Ergebnis der konkrete Anwendung der Funktion auf eine ausgewählte Datenmenge. Für jeden vorgegebenen Parameter existieren viele verschiedene Schätzer. Es wird deshalb ein Kriterium verwendet um einen der Schätzer auszuwählen. Trotzdem kommt es oft vor, dass sich an Hand der Kriterien kein Schätzer als eindeutig überlegen erweist. Das Ergebnis eines Schätzers wird als Schätzwert bezeichnet, wobei dieser im Gegensatz zu den Messwerten unbekannt ist.

Man unterscheidet zwei Arten von Schätzern: Punktschätzer und Intervallschätzer.

Zu den gewünschten Eigenschaften eines Schätzers zählen Konsistenz, Erwartungstreue (Unverzerrtheit) und ein minimaler Schätzfehler. In der robusten Statistik kommt noch die Eigenschaft der Robustheit hinzu, die z.B. über den Bruchpunkt des Schätzers gemessen werden kann.

Eigenschaften Bearbeiten

Erwartungstreu
Der Erwartungswert des Schätzers ist exakt der gewünschte Parameter. Siehe: Erwartungstreue.
Konsistent
Bei größerem Stichprobenumfang liegt der Schätzwert näher am gewünschten Parameter. Siehe: Konsistenz (Statistik).
Wirksam oder Effizient
Der Schätzer weist die kleinst mögliche Varianz auf.
Robustheit
...

Methoden zur Gewinnung von Schätzfunktionen Bearbeiten

Maximum-Likelihood-Methode
Der Schätzer wird so gewählt, dass die Wahrscheinlichkeit, dass der geschätzte Kennwert die beobachteten Ergebnisse in der Stichprobe verursacht hat, maximiert wird.
Ordinary Least Squares
...
Momentenmethode
...

Siehe auch Bearbeiten

Schätzen und Testen, Statistisches Schätzverfahren

[[Kategorie:Statistik]] [[Kategorie:Regelungstechnik|Beobachter]] [[en:Estimator]] [[pl:Estymator]]

alter Inhalt von Statistisches Schätzverfahren (Zwischenlager) Bearbeiten

(MFE entfernt. --Cjesch 16:11, 26. Dez. 2006 (CET))Beantworten

Statistische Schätzverfahren sind Methoden, die die Ermittlung von Parametern einer theoretischen Wahrscheinlichkeitsverteilung (der Verteilung der Grundgesamtheit) anhand von Stichproben zum Ziel haben. Schätzverfahren werden auch als Konklusionsverfahren bezeichnet, weil dort von der Stichprobe auf die Grundgesamtheit geschlossen wird. Man unterscheidet

Solche zu schätzenden Parameter sind beispielsweise der Erwartungswert und die Varianz (1).

Generell unterscheidet man zwei Arten von Schätzverfahren, die sich in Ihrem Aussagegehalt unterscheiden:

  • Punktschätzungen
  • Intervallschätzungen

Punktschätzungen geben für einen Parameter genau den Wert an, der aufgrund der Stichprobe statistisch am wahrscheinlichsten erscheint. Intervallschätzungen hingegen geben einen Wertebereich (Konfidenzintervall) an, in dem sich der Parameter nach vorzugebenden Wahrscheinlichkeiten (Konfidenzniveau) am ehesten befindet.

Zur Ermittlung der Parameter werden so genannte Schätzfunktionen verwendet. Sie sind die Berechnungsvorschriften, mit denen man die Schätzung erhält.

Punktschätzverfahren Bearbeiten

Ein Punktschätzverfahren zur Schätzung des Erwartungswertes einer Verteilung ist das Verfahren der kleinsten Quadratsumme. Es sucht analytisch den Wert  , zu dem die Werte   der Stichprobe des Umfangs   den kleinsten summierten quadratischen Abstand haben:

 


Eigenschaften von Schätzungen Bearbeiten

Die Eigenschaften von Schätzungen werden unterteilt in Klein-Stichproben-Eigenschaften und Asymptotische Eigenschaften. Während die Klein-Stichproben-Eigenschaften schon bei kleinen Stichprobenumfängen erfüllt sein können, werden die Asymptotischen Eigenschaften erst bei großen Stichprobenumfängen erreicht. Diese Eigenschaften werden auch als Gütekriterien bezeichnet.

  • Klein-Stichproben-Eigenschaften:
    • Erwartungstreue / Durchschnittseigenschaft: Der Erwartungswert für einen Schätzwert entspricht dem wahren Wert.
    • Effiziente Schätzungen: Es wird die Schätzung ausgewählt, die bei gleichem Stichprobenumfang die kleinere Varianz aufweist.
    • Suffiziente Schätzungen: Von suffizienten Schätzungen spricht man, wenn alle zu Grunde liegenden Stichprobeninformationen für die Schätzung genutzt werden.


  • Asymptotische Eigenschaften:
    • Konsistente Schätzungen: Schätzungen, bei denen das Gesetz der großen Zahlen gilt (Minimalanforderung).
    • Asymptotisch erwartungstreue Schätzungen: Wenn Schätzungen erst mit einem gegen unendlich gehenden Stichprobenumfang erwartungstreu werden.
    • Asymptotisch effiziente Schätzungen: Wenn Effizienz der Schätzung erst mit einem gegen unendlich gehenden Stichprobenumfang eintritt.
    • Asymptotisch normalverteilte Schätzungen: Mit größer werdendem Stichprobenumfang tendiert die Schätzung in Richtung einer Normalverteilung.

Schätzfunktion Bearbeiten

Man betrachtet ein quantitatives statistisches Merkmal x. Modelltheoretisch wird dieses Merkmal idealisiert: Man geht davon aus, dass es sich in Wahrheit um eine Zufallsvariable X handelt, deren tatsächliche, „wahre“ Verteilung und „wahre“ Verteilungsparameter unbekannt sind. Man nennt dies die Grundgesamtheit des Merkmals.


Diese Informationen erhofft man sich durch eine Stichprobe: Man entnimmt der Grundgesamtheit zufällig n viele Elemente. Mit Hilfe dieser Stichprobenelemente schätzt man dann die Parameter.

Definition der Schätzfunktion Bearbeiten

Um einen Parameter γ einer Verteilung zu schätzen, nimmt man aus der Grundgesamtheit eine uneingeschränkte Zufallsstichprobe vom Umfang n, es werden also n Realisationen xi (i = 1, ... , n) der Zufallsvariablen X beobachtet. Man fasst die n Realisationen wahrscheinlichkeitstheoretisch als unabhängige Folge von n Zufallsvariablen Xi auf. Um den Parameter γ zu schätzen, werden die Xi in geeigneter Weise zusammengefasst. Sie bilden eine Schätzfunktion g(X1, X2, ..., Xn) oder Stichprobenfunktion. Da die Stichprobe zufällig erfolgt, ist die Schätzfunktion wiederum eine Zufallsvariable.

Ausgewählte Schätzfunktionen Bearbeiten

Metrisches Merkmal Bearbeiten

Der Erwartungswert wird mit dem arithmetischen Mittel der Stichprobe geschätzt,

  .

Ist die Verteilung symmetrisch, kann auch der Median der Stichprobe als Schätzer für den Erwartungswert verwendet werden:

  ,

wobei   die Position des Medians in der Mitte einer der Größe nach geordneten Liste bezeichnet.

Für die Varianz der Grundgesamtheit verwendet man die Stichprobenvarianz als Schätzfunktion

  .


Die Verteilung der Schätzfunktionen hängt von der Verteilung des Merkmals in der Grundgesamtheit ab.

Das Merkmal ist normalverteilt mit Erwartungswert μ und Varianz σ 2:

Es ist als lineare Transformation der Xi der Schätzer   normalverteilt,

  .

Der Varianzschätzer S2 enthält eine Quadratsumme von bezüglich   zentrierten normalverteilten Zufallsvariablen. Deshalb ist der Ausdruck

 

zentral χ2-verteilt mit n-1 Freiheitsgraden.

Ist die Verteilung des Merkmal unbekannt, kann bei genügend großem Stichprobenumfang die Verteilung der Schätzfunktion näherungsweise mit der Normalverteilung angegeben werden.

Dichotome Grundgesamtheit Bearbeiten

Man betrachtet hier das Urnenmodell mit zwei Sorten Kugeln. Es soll der Anteilswert der Kugeln erster Sorte in der Grundgesamtheit geschätzt werden. Als Schätzfunktion verwendet man den Anteil der Kugeln erster Sorte in der Stichprobe,

 

mit X: Zahl der Kugeln erster Sorte in der Stichprobe. Die Verteilung von P ist die gleiche wie die der entsprechenden Zufallsvariablen X, also eine Binomialverteilung im Modell mit Zurücklegen und eine hypergeometrische Verteilung im Modell ohne Zurücklegen.

Wünschenswerte Eigenschaften von Schätzfunktionen Bearbeiten

Konsistenz Bearbeiten

Die Schätzfunktion soll konsistent sein.

Konsistenz, mit einfachen Worten, besagt, dass sich die Schätzfunktion mit wachsendem n immer mehr dem wahren Parameter γ nähert.

Die formale Definition lautet:

Eine Schätzfunktion ist konsistent, wenn für jedes ε>0 gilt:

 .

mit gn. = g(X1, X2, ..., Xn).

Man spricht hier von stochastischer Konvergenz.

Erwartungstreue Bearbeiten

Die Schätzfunktion soll im Mittel gleich dem wahren Parameter   sein:

 

Weicht   systematisch von   ab, ist der Schätzer verzerrt (“biased“). Die Verzerrung   ist

 .

Effizienz (oder Minimale Varianz) Bearbeiten

Die Schätzfunktion soll eine möglichst kleine Varianz haben. Die Schätzfunktion g* aus allen erwartungstreuen Schätzfunktionen gk , die die kleinste Varianz hat, wird als effizienteste, beste oder wirksamste Schätzfunktion bezeichnet.

Mittlerer quadratischer Fehler: Eine Schätzfunktion, die nicht notwendigerweise erwartungstreu ist, soll einen kleinen mittleren quadratischen Fehler aufweisen. Der mittlere quadratische Fehler ist die erwartete quadratische Abweichung vom Parameter:

 

Der mittlere quadratische Fehler ist die Summe des quadrierten Bias und der Varianz. Die Genauigkeit eines Schätzers bzw. einer Schätzfunktion wird oft mit dem mittleren quadratischen Fehler gemessen.

Suffizienz Bearbeiten

Suffizienz ist ein Begriff aus der mathematischen Statistik, der als Eigenschaft messbaren Funktionen zukommen kann, die aus dem Stichprobenraum in einen beliebigen Maßraum abbilden. Man charakterisiert dabei solche Abbildungen als suffizient, die einen hochdimensionalen Datenvektor in eine einfachere Form transformieren, ohne dabei wesentliche Informationen über die zu Grunde liegende Wahrscheinlichkeitsverteilung zu verlieren.

Weitere Stichworte Bearbeiten

Beispiel Bearbeiten

Die Ausführungen sollen zum besseren Verständnis anhand eines (frei erfundenen) Beispiels erläutert werden.

In einem privat betriebenen medizinischen Labor ist eine neue Methode zur Vermehrung von Gewebezellen entwickelt worden. Dieses Gewebe soll vor allem bei großflächigen Verbrennungen auf die beschädigte Haut transplantiert werden. Um weiter planen zu können, braucht man nähere Informationen über die Schnelligkeit des Zellwachstums. Man interessiert sich für die Frage: “Wie schwer ist ein Zellklumpen bestimmten Gewichts nach vier Wochen Zucht?“.

Man definiert nun die Zufallsvariable X: Gewicht eines Zellklumpens [g]. Da es sich dabei um ein natürliches Phänomen handelt, kann man nach dem zentralen Grenzwertsatz vermuten, dass X normalverteilt ist. Es geht nun aber darum, Informationen über die Parameter der Verteilung zu erhalten: Wie schwer ist so ein Zellklumpen im Mittel und wie sehr schwanken die einzelnen Gewichte? Man sucht Informationen über den Erwartungswert und die Varianz der Zufallsvariablen.

Tatsächlich ist das Gewicht eines Zellklumpens normalverteilt mit dem Erwartungwert μ = 10 [g] und der Varianz σ2 = 4 [g2]. Diese "wahren" Parameter regieren also die Stichprobe, sie sind den Laborbetreibern aber unbekannt.


Ergebnis des iten Röhrchens x1 x2 x3 x4 x5
Gewicht der Zellen x 7,4 9,4 10,2 9,6 11,7

Man kann nun den Erwartungswert schätzen, z.B. mit dem arithmetischen Mittel als Schätzfunktion g1,

 

Da jede Stichprobe vom Umfang 5 anders ausfallen kann, ist das Mittel selbst eine Zufallsvariable.

Es wäre aber als Schätzer g2 für μ auch der Median z denkbar. Es ist der drittgrößte Wert:

 

Zur Veranschaulichung wurde 1000 mal eine solche Stichprobe per Zufallszahlen erzeugt. Die ersten 18 Stichproben werden in der unten folgenden Tabelle gezeigt. Die ersten fünf Spalten zeigen die einzelnen Ergebnisse, dann folgen einige Schätzfunktionen.

Nr.      x1     x2     x3     x4     x5   arithm.  Median  min+max  x10,5
                                          Mittel             2
------------------------------------------------------------------------
  1     7,4    9,4   10,2    9,6   11,7      9,7     9,6      9,5    2,7
  2    10,7   12,4   11,4    8,8   11,4     11,0    11,4     10,6    3,3
  3    11,8    7,1    8,1    9,7   10,2      9,4     9,7      9,5    3,4
  4    11,3    8,2   10,0   12,1   10,4     10,4    10,4     10,1    3,4
  5    10,1    8,8    8,9    9,4   10,8      9,6     9,4      9,8    3,2
  6     8,1   12,0   10,7   10,1    7,0      9,6    10,1      9,5    2,8
  7     9,3   11,3   10,3   11,2   11,4     10,7    11,2     10,4    3,1
  8     8,2   13,2   11,6    7,1   15,7     11,2    11,6     11,4    2,9
  9     8,2   11,1   13,0    9,4   11,7     10,7    11,1     10,6    2,9
 10    10,8    2,7    6,9   10,5    7,7      7,7     7,7      6,7    3,3
 11    11,5   11,2    8,9    9,8    7,1      9,7     9,8      9,3    3,4
 12    11,6    8,2    7,5   11,4   11,2     10,0    11,2      9,6    3,4
 13     7,6    9,4   14,1    8,8   10,1     10,0     9,4     10,9    2,8
 14     6,8    6,1    6,5    7,7    8,2      7,0     6,8      7,1    2,6
 15    11,9   11,9   11,2    8,7    9,5     10,6    11,2     10,3    3,4
 16     9,9    9,4   11,9    9,4    9,5     10,0     9,5     10,6    3,1
 17    15,7    8,4   10,1    9,3    8,9     10,5     9,3     12,0    4,0
 18    10,0    8,9    8,5   12,1    6,3      9,1     8,9      9,2    3,2

Man sieht, dass beispielsweise der arithmetische Mittelwert von 7 bis 11,2 schwankt. Auch die Mediane variieren stark.

Wir könnten noch weitere Schätzfunktionen für μ vorschlagen, etwa

 

den Durchschnitt zwischen der kleinsten und größten Beobachtung, oder

 

Welche Schätzfunktion soll man nun verwenden? Ein Kriterium ist die Erwartungstreue. Erwartungstreu sind vermutlich das arithmetische Mittel und der Median, aber auch die Schätzfunktion g3. g4 ist offensichtlich Unsinn, wie auch ein Blick auf die Tabelle zeigt.

Aus den drei akzeptablen Schätzfunktionen wird nun die mit der kleinsten Varianz ausgewählt, denn da ist der Schätzwert am verlässlichsten. Man kann zeigen, dass das arithmetische Mittel die kleinste Varianz hat.   ist also ein bester Schätzer.

Die nächste Tabelle zeigt die Durchschnitte der vier Schätzfunktionen und auch ihre Varianz.

Schätzfunktion für μ Arithmetisches Mittel Median ((min(x) + max(x))/2 Wurzel(x1)
Mittelwert der 1000 Schätzer 10,00 9,97 10,02 3,15
Varianz der 1000 Schätzer 0,79 1,22 1,01 0,10

Das Labor schätzt also den Erwartungswert mit 9,7 (1. Stichprobe) und die Varianz mit

 


zum Verständnis siehe [3] Wenn wir beide Artikel brauchen dann wäre mir eine Artikelunterscheidung zu Anfang recht: "Der Artikel beschäftigt sich mit... für ... siehe..." Mir wird nämlich nicht klar warum wir beide brauchen und anderen Lesern denke ich auch nicht. --Chrisqwq 17:27, 16. Jun 2006 (CEST)

Bin gerade drüber. --Philipendula 17:40, 16. Jun 2006 (CEST)

Ich sehe bei der jetzigen Aufteilung überhaupt keine Überschneidungen mehr. Für meinen Geschmack kann der Baustein raus. --Scherben 09:29, 17. Jun 2006 (CEST)

  • Ich sehe auch keine Überschneidungen, mir wärenur recht, wenn ein unterscheidender Satz zu beginn auf den jeweils anderen Artikel aufmerksam machen würde. "Dieser Artikel befasst sich mit..., wärend ... unter ... zu finden ist." --Chrisqwq 12:46, 17. Jun 2006 (CEST)
Hau rein, it's a wiki. Ich nehme den Baustein mal raus, dafür ist der ja nicht da. --Scherben 17:43, 17. Jun 2006 (CEST)

Unklar: Wann ist welches Verfahren vorzuziehen? Bearbeiten

  • Wann ist welches Verfahren vorzuziehen?
  • Welche wird am häufigsten genutzt? Wird die "alte" Momentenmethode noch genutzt?
  • Wenn das ML-Verfahren überlegen ist, warum werden die anderen dann noch genutzt?
  • Wann liefern sie die gleichen Ergebnisse? --Zulu55 10:49, 5. Aug. 2010 (CEST)Beantworten
Je mehr Information ein Verfahren verwendet, desto besser ist es in Hinblick auf Effizienz, Erwartungstreue etc. In dieser Hinsicht ist die Maximum-Likelihood-Methode das beste Schätzverfahren.
Das Problem ist jedoch die Richtigkeit der verwendeten Information. Jeder Beobachtung   wird ja eine Stichprobenvariable   zugeordnet. Die ML-Methode funktioniert jedoch nur, wenn die Verteilungsform der Zufallsvariablen   bekannt ist und nur die Verteilungsparameter unbekannt sind. Was passiert jedoch, wenn man annimmt die   sind normalverteilt und in Wirklichkeit sind sie uniform verteilt? Dann liefert die ML-Methode mit der angenommenen Normalverteilung einen falschen Schätzwert.
Die Minimum-Quadrate-Methode braucht nur eine funktionale Verknüpfung zwischen   und den unbekannten Parametern. Dafür sind die resultierenden Schätzfunktion seltener erwartungstreu. Im Kern läuft es darauf hinaus, dass man sich die Voraussetzungen/Anforderungen für die Schätzmethoden anschauen muss und sich dann für eine entscheidet. Leider kann man jedoch nicht alle Voraussetzungen/Anforderungen empirisch überprüfen. --Sigbert 21:29, 5. Aug. 2010 (CEST)Beantworten