Kategoriale Variable

In der Statistik bezeichnet man als kategoriale Variablen folgende Arten von Variablen:

nominalskalierte Variablen
ordinalskalierte Variablen
metrische Variablen, die nur wenige Ausprägungen haben.
Manche Autoren zählen metrische Variablen auch im Falle von wenigen Ausprägungen oder Kategorisierung nicht zu den kategorialen Variablen. Die enge Definition des Begriffs „kategoriale Variable“ umfasst dann nur nominal- und ordinalskalierte Variablen.
metrische Variablen, die kategorisiert wurden (Beispiel: Variable „Einkommen“ mit den Kategorien „500–999 €“, „1000–1499 €“ usw.)

Kategorische Variablen in der Regressionsanalyse

Da kategorische Variablen qualitative Aussagen über Daten tätigen und keine quantitativen, müssen sie zuerst in quantitative Daten umgewandelt werden, damit man sie in der Regressionsanalyse verwenden kann. Dies geschieht durch eine geeignete Kodierung. Üblicherweise verwendet man eine der drei Kodierungen: Dummykodierung, Effektkodierung und Kontrastkodierung.

Beispiel: Die nominalskalierte Variable $G$ enthält Informationen zum höchsten akademischen Grad einer Person (Kein, Bachelor, Master, Doktorgrad).

Dummykodierung

Eine Dummykodierung wird dann genutzt, wenn man von einer Kontrollgruppe (auch Basislinie) ausgeht. Dafür werden drei binäre Variablen $A1,A2,A3$ eingeführt. Da die meisten Menschen über keinen akademischen Abschluss verfügen, macht es Sinn, diese als Kontrollgruppe zu verwenden. Man erhält somit folgende Kodierung:

Akademischer Grad	A1	A2	A3
Kein	0	0	0
Bachelor	1	0	0
Master	0	1	0
Doktorgrad	0	0	1

Effektkodierung

In der Effektkodierung hat man keine Kontrollgruppe wie in der Dummykodierung. Es werden drei binäre Variablen $A1,A2,A3$ eingeführt. Die Gruppe ohne akademischen Abschluss wird mit $-1$ (statt $0$ wie in der Dummykodierung) kodiert:

Akademischer Grad	A1	A2	A3
Kein	−1	−1	−1
Bachelor	1	0	0
Master	0	1	0
Doktorgrad	0	0	1

Kontrastcodierung

Eine Kontrastkodierung ermöglicht es Forschern, direkt spezifische Fragen zu stellen. Anstatt den Vergleich durch das Kodierungssystem vorgeben zu lassen (d. h. im Vergleich zu einer Kontrollgruppe, wie bei der Dummy-Kodierung, oder im Vergleich zu allen Gruppen, wie bei der Effektkodierung), kann man einen gezielten Vergleich entwerfen, der auf die eigene Forschungsfrage zugeschnitten ist.

Siehe auch

Kardinale Variable bzw. metrische Variable
Skalenniveau

Literatur

Hans-Jürgen Andreß: Einführung in die Verlaufsdatenanalyse. Statistische Grundlagen und Anwendungsbeispiele zur Längsschnittanalyse kategorialer Daten. Köln: Zentrum für Historische Sozialforschung 1992 (HSR Supplement/Beiheft 5). JSTOR:40985970
Ludwig Fahrmeir, Rita Künstler, Iris Pigeot, Gerhard Tutz: Statistik. Der Weg zur Datenanalyse. 8., überarb. und erg. Auflage. Springer Spektrum, Berlin / Heidelberg 2016, ISBN 978-3-662-50371-3.