Diskussion:Empirische Varianz

Letzter Kommentar: vor 2 Monaten von KlausTh-Mathe in Abschnitt Zufallsvariablen versus Realisierungen

Allgemein Bearbeiten

Der Artikel scheint Schrott zu sein.

Das ist die Varianz einer Strichprobe - also nur eines Teils der gesamten Daten ("Grundgesamtheit"), und daher eine Schätzung:

 

Das ist die Varianz der Grundgesamtheit, also keine Schätzung, denn es werden alle Daten einbbzogen. m.E. ist das die "empirische Varianz" - eben weil sie auf Empirie aller Daten beruht und nicht auf Schätzung.

 .

TiHa (Diskussion) 16:24, 28. Jul. 2017 (CEST)Beantworten

Die nicht bekannte Varianz der Grundgesamtheit ist
 . Gruß. --JonskiC (Diskussion) 18:38, 28. Jul. 2017 (CEST)Beantworten
Da kann trotzdem irgend etwas nicht stimmen : "Da sie in vielen praktischen Situationen oft unbekannt ist und dennoch irgendwie berechnet werden muss, wird oft die empirische Varianz herangezogen. Dies ist vor allem notwendig, wenn es in extrem großen Populationen nicht möglich ist, jedes einzelne Subjekt in der Population zu zählen." - Ok. Es wird aber wohl kaum so sein, dass die Lösung lediglich eine andere Benennung ist- darauf läuft es aber hinaus, wenn man sich die Formeln anschaut (im Artikel). Die Rechnung ist dort dieselbe, egal ob man das Ding n oder N oder s oder σ nennt. Der Grund für das n-1 ist m.W. aber der Schätzfehler der um so größer wird, je kleiner die Stichprobe ist ( bei kleinen Stichproben von 10 oder 20 Werten). Der Name macht nicht den Unterschied, sondern die Berechnung. Isso - oder? TiHa (Diskussion) 05:43, 18. Mär. 2018 (CET)Beantworten

vs. Bearbeiten

Aus dem Artikel heraus wird der Unterschied zwischen   und   nicht klar. Gemeint ist doch die sogenannte Endlichkeitskorrektur, oder? Dann sollte man die Idee dahinter vielleicht genauer explizieren. --Zulu55 (Diskussion) 16:29, 21. Aug. 2018 (CEST)Beantworten

Hallo Zulu55! Mit der Tilde werden üblicherweise verzerrte Schätzer bezeichnet.   ist die Realisation der verzerrten Schätzfunktion  . Die erwsrtungstreue Schätzfunktion wird mit   bezeichnet und die Realisation ist  . Beste Grüße.--Jonski (Diskussion) 00:48, 22. Aug. 2018 (CEST)Beantworten

Empirische Varianz für Häufigkeitsdaten Bearbeiten

Was sind Häufigkeitsdaten? ist a ein Gewicht oder ein Wert? ist  ? wie berechnet sich hier  ? (nicht signierter Beitrag von 2003:a:1517:8900:19d1:43b3:ec4:483e (Diskussion) )

Habe mal was ergänzt. Der Kritikpunkt war berechtigt. So okay?--Jonski (Diskussion) 20:10, 27. Mai 2019 (CEST)Beantworten
Ja, danke, so sollte man es verstehen können. Ich habe n ergänzt. Persönlich neige ich dazu, kürzer zu schreiben. Ich hätte z.B. entweder nur h_i oder nur f_i verwendet, den Hinweis auf Häufigkeitstabellen weggelassen und das ganze als "Wichtung" bezeichnet (weil ich das so kenne). Ich hoffe, "Häufigkeitsdaten" verwenden nicht nur die Autoren von dem einen Buch.
Wenn man es "Wichtung" nennt, kann man darunter auch das Zusammenfügen verschiedener Daten, die nicht zählbar sein müssen, verstehen. Etwa Messungen mit verschiedenen Varianzen, mit Gewicht h_i=1/s_i^2 oder so ähnlich.--2003:A:1517:8900:E4F5:D881:65B5:1D08 09:17, 28. Mai 2019 (CEST)Beantworten

Empirische Standardabweichung Bearbeiten

Zu den Größen   und  . wurde im Artikel behauptet:

Die Definition   ist im Gegensatz zu   ein erwartungstreuer Schätzer für die Standardabweichung  .

Das stimmt natürlich nicht, ein Gegenbeispiel findet sich in Stichprobenvarianz (Schätzfunktion)#Schätzung der Standardabweichung der Grundgesamtheit aus einer Stichprobe. Als Quelle wurde

angegeben. Die Seite ist nicht mehr erreichbar, aber wenn man sich anschaut, was die im Artikel noch belegen sollte, hat da jemand einfach die Linearität des Erwartungswerts auf die nicht-lineare Wurzelfunktion angewendet. Kann jemand bitte zu der analogen (und richtigen) Aussage zu   und   bzgl. der Varianz   eine neue Quelle raussuchen?

Vielen Dank und liebe Grüße -- 2A02:8109:B6C0:2828:2CD4:6FF6:C052:34C1 12:14, 21. Mär. 2020 (CET)Beantworten

Empirische Varianz vs Stichprobenvarianz Bearbeiten

Ich beziehe mich auch auf den Ausgangspunkt dieser Diskussion und stimme zu, dass hier Verbesserungsbedarf besteht. Daher: Ich habe inzwischen den Artikel Stichprobenvarianz präzisiert und genauer zur empirischen Varianz abgegrenzt. Die Abgrenzung ist jetzt auch auf auf der Seite Varianz erklärt. Als nächstes werde ich auf dieser Seite ein paar Verbesserungen vornehmen, um Verwechslung mit der Stichprobenvarianz zu vermeiden. --Mbasti01 (Diskussion) 09:43, 1. Feb. 2022 (CET)Beantworten

Was ich da oben mal etwas frustriert kritisiert hatte (und falsch begründet hatte), scheint nicht nur für mich eine Verständnisbarriere zu sein, wie man dem von dir verlinkten Video entnehmen kann. Evtl. gelingt es uns, das Begriffswirrwar didaktisch irgendwie abzufedern, damit der an sich ja nicht sehr komplizierte Stoff auch Newbies zugänglich wird.Leider kollidieren hier oft die per Definition festgelegten Namen mit dem Sprachgefühl. Z.B. klingt für mich die "Stichprobenvarianz" nach "Varianz der Stichprobe" und überhaupt nicht nach "geschätzte Varianz der Grundgesamtheit". Und der tiefere Sinn des Attributes "empirisch" ist mir bis heute ein Rätsel geblieben. TiHa (Diskussion) 10:44, 3. Feb. 2022 (CET)Beantworten
Vielen Dank für die Antwort. Folgende Idee:
Der Artikel Stichprobenvarianz bezieht sich auf das Ziel, die Varianz der Grundgesamtheit zu schätzen". Für eine bessere Abgrenzung sollte sich dieser Artikel Empirische Varianz auf das Thema "Kennzahl eines konkreten Datensatzes" fokussieren. Dann geht es hier in diesem Artikel also NICHT um "Grundgesamtheit" und "Stichprobe" sondern um die Beschreibung "konkrete Datensätze".
Natürlich gibt es begriffliche Überschneidungen, die man auch benennen ("abfedern") kann. Aber folgende Kategorisierung kann Klarheit bringen:
  • Die Begriffe "Grundgesamtheit", "Stichprobe", "Schließende Statistik", "Schätzung" .... gehören zusammen und passen bessser zum Artikel/Thema "Stichprobenvarianz". Siehe auch das neue Bild auf der Seite Stichprobenvarianz. Das Ziel einer Stichprobe ist es ja auf eine Grundgesamtheit (Population) zu schließen.
  • Die Begriffe "Konkreter Datensatz", "Kennzahl für den Datensatz", "Beschreibende Statistik" ... gehören zusammen und passen besser zum Artikel "Empirische Varianz". Mit dem Begriff "Empirisch" bin ich an dieser Stelle auch nicht 100%ig glücklich. Aber ich habe keinen besseren. Und ich empfinde ihn auch nicht als falsch.
Können wir die Unterscheidung in dieser Form verwenden und diesen Artikel entsprechend umgestalten? Bitte um Rückmeldung, wer dieser Argumentation folgen kann, bzw. ob es andere Argumente gibt. Jedenfalls wäre das ein größerer Umbau. Viele Grüße --Mbasti01 (Diskussion) 11:18, 3. Feb. 2022 (CET)Beantworten
Solange es sich nur um Benennungen handelt oder welchen Benennungen zuammengehören, ist m.E. nicht sehr viel erreicht. Am besten wäre es meiner Meinung nach, wenn man, bevor man definiert, wie etwas heißt, erstmal klar macht, was es ist und wozu es gut ist, was, glaub ich, die Aufgabe des Abschnittes "Motivation" ist. Da die Formeln mit unterschiedlichen Namen oder Anwendungszwecken doch mathematisch immer gleich sind (abgesehen von (n) und (n-1)), stellt sich dann halt die Frage, warum es dann so und so heißt, z.B. gleich im ersten Satz, wo "empirische Varianz" mit "einfach Varianz" gleichgesetzt wird. Sobald so ein Attribut, wie "empirisch" dranhängt, muss sich ein aufmerksamer Leser ja fragen, was dann eine "nicht-empirische Varianz" sein mag. Da schickt Wikipedia meinen Wissensdurst aber leider in die Wüste ;-) TiHa (Diskussion) 07:47, 4. Feb. 2022 (CET)Beantworten
Guter Punkt. Die "Bedeutung" steht im Vordergrund.
Das Problem ist, dass die unterschiedliche "Bedeutung" der Seitentitel "Empirische Varianz" und "Stichprobenvarianz" von verschiedenen Literaturstellen verschieden interpretiert wird. Die Wortwahl ist nicht glücklich und taugt daher nicht als Überschrift (Lemma) in Wikipedia.
  • Empirische Varianz (gibt es auch eine "nicht-empirische V."? (siehe oben TiHa))
  • Stichprobenvarianz (Varianz der Stichprobe? Oder Verwendung der Stichprobe zur Varianzschätzung?)
 
"Varianz" 2022-02-05
Ich habe ein Diagramm gemacht um den Bestand der Seiten zu zeigen, die mit Varianz zusammenhängen. Mir hat das geholfen um folgenden Vorschlag zu formulieren:
  • Wir haben eine Seite "Varianz (Stochastik)" -> OK
  • Wir brauchen eine Seite "Varianz (Berechnung)" -> NEUE bzw. verschobene bestehende Seite
Inhalt von "Varianz (Berechnung)": Es gibt 2 unterschiedliche Haupt-Motivationen:
a) Schätzung der Varianz einer Gesamtheit basierend auf einer Stichprobe, bzw. es wird von der Stichprobe auf die Gesamtheit geschlossen (induktive Statistik) ( Verwendung Formeln (1)(2) auf der Seite "Stichprobenvarianz").
b) Berechnung der Varianz eines Datensatzes (es gibt keine größere Gesamtheit als diesen Datensatz, bzw. es gibt nichts zu schätzen, es gibt nur etwas zu beschreiben (deskriptive Statistik) ) ( Verwendung von Formel (3) auf der Seite "Stichprobenvarianz")
Es werden auch Beispiele benötigt, um den Unterschied in der Bedeutung von a) und b) greifbar zu machen.
Vorschlag für das Vorgehen:
  • Verschiebung der Seite "Stichprobenvarianz" nach "Varianz (Berechnung)"
  • Löschen der Seite "Empirische Varianz"
  • Anpassen der Links und der anderen Seiten, sowie insbesondere auch Anpassungen/Beispiele auf der (ehemaligen) Seite "Stichprobenvarianz" um das Ganze wieder konsistent zu bekommen.
--Mbasti01 (Diskussion) 12:06, 5. Feb. 2022 (CET)Beantworten
hi Mbasti01, danke für die Übersicht. Ich kann nicht beurteilen, ob das so alles richtig ist. Jedenfalls besitze ich ein Mathemtiklexikon, wo alle Stichwörter wie "emp. Mittelwert", "emp. Var." usw. auf die entsprechenden Artikel wie "Stichprobenmittlwert", "StichprobenVar." usw. verweisen - sprich, die setzen das gleich. TiHa (Diskussion) 19:42, 6. Feb. 2022 (CET)Beantworten
Hallo @TiHa, ich bin in Wikipedia fündig geworden :):
"Empirie ..  ist eine methodisch-systematische Sammlung von Daten. … Dem stehen die nichtempirischen Wissenschaften gegenüber, ... , etwa Mathematik … weil hier Aussagen formuliert werden, die allein aus logischen (formalen) Gründen richtig oder falsch sind."
Demnach beruht die "empirische Varianz" auf erhobenen Daten. Und die "nichtempirische Varianz" beruht dagegen auf abstrakter Mathematik (auf Stochastik, ...).
Auch die Stichproben der Seite Stichprobenvarianz sind nichts als eine methodisch-systematische Sammlung von Daten ... also Empirie. Dein Mathematiklexikon hat also recht: Stichprobenvarianz und empirische Varianz kann man gleichsetzen.
Damit bleibt der Vorschlag: Die bestehenden Seiten "Empirische Varianz" und "Stichprobenvarianz" sollten zusammengefasst werden. (neuer Namensvorschlag: "Varianz (Empirie)", als Konterpart zur Seite "Varianz (Stochastik)" ).
Oder?
P.S.: Die Argumentation mit "Empirie" gefällt mir jetzt besser als der Bezug auf die "Beschreibende Statistik", den ich oben bemüht hatte. --Mbasti01 (Diskussion) 17:10, 7. Feb. 2022 (CET)Beantworten
Obercool :-). So, wie du es erklärst, ist es sehr plausibel. Allerdings fragt sich ein von Zweifeln geplagter Mensch wie ich dann, wieso die Verwendung der Grundgesamtheit, wenn man sie denn hat, nicht ebenso "empirisch" ist, wie die Verwendung einer Stichprobe ;-). Ich glaube, man kommt nicht umhin, die Fachwörter als eingebürgerte Konventionen anzuerkennen. Und da, wo die Verwendung nicht einheitlich ist, sollte man erklären, was den Unterschied ausmacht.
Deine Verbesserunsgvorschläge find ich gut. TiHa (Diskussion) 07:15, 8. Feb. 2022 (CET)Beantworten
Danke, freut mich, dass es Dir im Prinzip gefällt. Ich habe daher mal einen Redundanzbaustein platziert. Mit den "Konventionen" hast Du recht. Wir können eingebürgerte Fachwörter nicht ändern und sollten gegebenenfalls unterschiedliche Verwendungen durchaus erklären. Gleichzeitig sollten wir einen neuen Seitentitel finden, der weniger Interpretationsspielraum bietet.
Zur Frage der Grundgesamtheit:
Eine Stichprobe ist ein Ausschnitt aus der Grundgesamtheit. Der Grenzfall ist natürlich, dass die Stichprobe die ganze Grundgesamtheit umfasst. In diesem Fall wäre der "wahre Mittelwert" bekannt und gleich wie der "Stichproben-Mittelwert". Dann würde ich Formel (2) auf der Seite Stichprobenvarianz verwenden mit  . In diesem Fall: Empirie - systematische Datensammlung - mit dem Ziel wirklich alle Daten zu erheben und nichts zu verlieren.
Häufig ist die Grundgesamtheit jedoch unendlich groß. Oder zumindest sehr groß. In diesem Fall: Empirie - systematische Datensammlung - mit dem Ziel zu einer repräsentativen Stichprobe zu kommen, die auch für Aussagen über die Grundgesamtheit tauglich ist. z.B: Aussage über die gesamte Produktion einer Produktionsmaschine - wie viele Stichproben sollte man mindestens nehmen - und zu welchen Zeitpunkten?. Oft sind es Kostenaspekte, die dazu führen, dass Stichproben nicht größer sein dürfen als xxx. --Mbasti01 (Diskussion) 17:49, 9. Feb. 2022 (CET)Beantworten
Die wesentlichen Inhalte dieser Seite finden sich jetzt in den Seiten Varianz (und Varianz (Stochastik)). Daher wurde eine Weiterleitung eingerichtet. --Mbasti01 (Diskussion) 17:29, 21. Feb. 2022 (CET)Beantworten

nächste Schritte Bearbeiten

Auf der Seite Varianz wurde der Ist-Zustand der Varianz-Seiten und die vorangegangen Ergebnisse der Redundanzdiskussion diskutiert. Ergebnis:

--Mbasti01 (Diskussion) 09:26, 18. Mär. 2022 (CET)Beantworten

Das meiste sollte erledigt sein. Bitte um Rückmeldung, falls noch etwas fehlt oder nicht in Ordnung ist. --Mbasti01 (Diskussion) 16:01, 12. Mai 2022 (CEST)Beantworten

Zufallsvariablen versus Realisierungen Bearbeiten