Diskussion:Dummy-Variable

Letzter Kommentar: vor 5 Jahren von JonskiC in Abschnitt Entfernung

paarweise Korrelation zwischen Dummy-Variablen

Bearbeiten

Ich habe grad emal spaßeshalber Dummy-Variablen für unsere Bundesländer (Befragtenperson kommt aus Bundesland ja/nein miteinander korreliert. Und siehe da: es kommen Korrelationen dabei heraus. Wie kann das sein? Was sagen diese Korrelationen aus? Antwort bitte auf http://de.wikipedia.org/wiki/Wikipedia:Auskunft#paarweise_Korrelation_zwischen_Dummy-Variablen --Zulu55 11:53, 19. Mär. 2010 (CET)Beantworten

Bearbeiten

GiftBot (Diskussion) 01:46, 24. Dez. 2015 (CET)Beantworten

Titel: Dummy-Kodierung

Bearbeiten

Der Artikel sollte besser den Titel "Dummy-Kodierung" tragen, denn das ist der Titel, unter dem das Thema in der statistischen Fachliteratur abgehandelt und von Interessierten gesucht wird (s.z.B. entsprechende Einträge im Dorsch und die Vorschläge von Google zu "Dummy"). Insbesondere ist die Dummy-Kodierung einer binären Variable nur ein Sonderfall der Dummy-Kodierung einer Variable mit k Ausprägungen und sollte auch so dargestellt werden.

Unfug

Bearbeiten

"Problematisch ist, dass die Wahl der Kodierung beliebig und einer geeigneten Referenzgruppe nicht evident ist (welche Referenz wird beim Vergleich von fünf verschiedenen Ländern gewählt?)." Dass das problematisch sei, ist nicht richtig. Denn die Wahl der Referenzkategorie ist irrelevant; die Bedeutung des rechnerischen Ergebnisses ist jedes Mal gleich. Denn die Schätzwerte der Nicht-Referenzkategorien werden jedes Mal in Bezug auf die Referenzkategorie interpretiert. Wählt man z.B. Spanien als Referenzkategorie, zeigt der Schätzwert "2", dass die Bundesrepublik Deutschland [Nicht-Referenzkategorie] doppelt so viele Einwohner hat als Spanien [Referenzkategorie]; wählt man dagegen die Bundesrepublik als Referenzkategorie, erhalten wir als Schätzer den Kehrwert "1/2" oder "0.5" und wissen, dass Spanien [Nicht-Referenzkategorie] halb so viele Einwohner hat wie Deutschland [Referenzkategorie]. Die Bedeutung des Ergebnisses ist jedes mal die gleiche! Richtig ist dagegen, dass man die Referenzkategorie so wählen sollte, dass sich die Forschungsfrage verständlich beantworten lässt. So macht es wenig Sinn, Italien als Referenzkategorie zu wählen, wenn interessiert, wieviele Einwohner andere Länder im Verhältnis zu Deutschland haben; wann wählt man besser Deutschland als Referenz, weil sich die Schätzer dann direkt interpretieren lassen. Aber auch wenn man tatsächlich Italien wählt und dann für Deutschland 1.33 und für Spanien 0.67 erhält, kann man daraus ableiten, dass Deutschland doppelt so viele Einwohner wie Spanien hat, denn 1.33 / 0.67 = 2.

Dann formuliere die Passagen doch um;)--JonskiC (Diskussion) 12:51, 4. Dez. 2017 (CET)Beantworten

Entfernung

Bearbeiten

Hallo HilberTraum, ich habe gesehen, dass du die formelle Darstellung die ich eingestellt habe entfernt hast...Was spricht deiner Meinung nach dagegen?--Jonski (Diskussion) 21:53, 28. Jun. 2019 (CEST)Beantworten

Es wurde weder erklärt, was   ist noch was   ist. Und „ “??? Eine indizierte Variable ist gleich ihrem Index? Das macht doch gar keinen Sinn. -- HilberTraum (d, m) 22:18, 28. Jun. 2019 (CEST)Beantworten
In dem Fall ist es eher Kategorie als Index...Doch das ergibt schon Sinn z. B.: Geschlecht = weiblich oder hier Partei = CDU, Grüne, etc. usw.--Jonski (Diskussion) 22:21, 28. Jun. 2019 (CEST)Beantworten
In der Einleitung heißt es doch richtig (und wichtig) „Diese der Dummy-Variable zugrunde liegende Variable kann ein beliebiges Skalenniveau haben.“ Und dann soll es „formal“ nur um kategorielle Variable gehen? Ins Grobe formuliert: Man hat doch eine Variable   gegeben mit beliebigem Wertebereich und eine Teilmenge, sagen wir  , dieses Wertebereichs. Daraus konstruiert man eine Dummy-Variable   mit  , falls  , und   sonst. Wenn   eine kategorielle Variable ist, dann ist das natürlich ein (sehr spezieller ;) Spezialfall. Aber wenn der so ausschließlich wie momentan im Artikel dargestellt wird, führt das den Leser meiner Meinung nach auf eine völlig falsche Idee. -- HilberTraum (d, m) 23:49, 28. Jun. 2019 (CEST)Beantworten
Hmm ob, Dummyvariablen nur für kategorielle Variablen definiert sind oder beliebiges Skalenniveau haben weiß ich nicht. Ich habe die Einleitung nicht geschrieben;) ME meint man bei dem Begriff Dummykodierung aber ausschließlich kategorielle Variablen. Bzgl. der Notation magst du evtl. recht haben...ich traue dem Buch bei formalmathematischen Definitionen nicht mehr ganz...ich weiß aber wie man es anpassen könnte, sodass es mehr sinn ergibt bzw. eindeutiger ist.--Jonski (Diskussion) 00:07, 29. Jun. 2019 (CEST)Beantworten