Lageparameter (deskriptive Statistik)

Begriff aus der deskriptiven Statistik

Als Lageparameter oder Lagemaße bezeichnet man in der deskriptiven Statistik gewisse Kennzahlen einer Stichprobe, die eine zentrale Tendenz des Datensatzes zum Ausdruck bringen.[1] Im einfachsten Fall geben sie an, wo sich das Zentrum der Stichprobe befindet, also in welchem Bereich sich ein großer Teil der Stichprobe befindet. Typische Beispiele für Lageparameter sind das mittlere Einkommen und das durchschnittliche Einkommen bei Erhebungen des Einkommens.

DefinitionBearbeiten

Manche Autoren fordern von Lageparametern die sogenannte Verschiebungsäquivarianz.[2] Ist   ein Lageparameter und ist

 

ein um den Wert   verschobener Datensatz, so soll

 

gelten. Eine Verschiebung der Daten um einen gewissen Wert resultiert also immer in einer Verschiebung des Lageparameters um diesen Wert. Nicht alle Parameter, die gängigerweise als Lageparameter bezeichnet werden, erfüllen diese Bedingung. Meist werden deshalb Lageparameter umschrieben als Kennzahlen, die eine zentrale Tendenz des Datensatzes zum Ausdruck bringen.[3][1]

Wichtige LageparameterBearbeiten

ModusBearbeiten

Der Modus oder Modalwert   einer Stichprobe ist definiert als derjenige Wert, der am häufigsten in der Stichprobe auftritt. Treten mehrere Werte gleich häufig auf, so werden sie alle als Modus bezeichnet, der Modus ist also nicht eindeutig. Man spricht dann von multimodalen Verteilungen. Der Modus existiert für beliebige Stichproben, da er sich im Gegensatz zu den anderen Lagemaßen schon definieren lässt, wenn nur eine Nominalskala gegeben ist.

MedianBearbeiten

Der Median, mit  ,   oder   bezeichnet, ist derjenige Wert, der die Stichprobe in zwei Hälften teilt:

  • Eine Hälfte kleiner als der Median
  • Eine Hälfte größer als der Median

Dazu wird zuerst die Stichprobe   der Größe der Werte nach geordnet. Der so entstandene Datensatz wird dann mit   bezeichnet. Somit ist   der  -größte Wert der Ausgangsstichprobe. Der Median wird dann definiert als

 

Arithmetisches MittelBearbeiten

Das arithmetische Mittel, auch empirischer Mittelwert oder einfach kurz Mittelwert genannt und mit   bezeichnet, ist die Summe der Merkmalsausprägungen in der Stichprobe, geteilt durch die Größe der Stichprobe (hierbei sind mehrfach auftretende Merkmalsausprägungen auch mehrfach zu summieren). Es ist also

 

nach Aggregation und entsprechend Vorliegen der Häufigkeiten kann

 

verwendet werden.
(Worin n die Größe der Stichprobe, i den Index über alle Merkmalsträger, j den Index über die Menge der möglichen Merkmalsausprägungen (Ergebnisraum) mit der Mächtigkeit m und F die absolute Häufigkeit bezeichnen).

Beispiele und EigenschaftenBearbeiten

Es wird die Stichprobe

 

betrachtet.

Die Werte  ,   und   sind je nur einmal in der Stichprobe enthalten, die Werte   und   zweimal. Kein Wert wird dreimal angenommen. Damit sind die beiden Modi

  und  

Zur Bestimmung des Medians sortiert man die Stichprobe der Größe nach und erhält so

 

Es ist   ungerade, also nach der Definition

 .

Als arithmetisches Mittel erhält man

 

ExistenzBearbeiten

Vorteil des Modus ist, dass er stets existiert. So lässt sich auch bei Stichproben wie

 

noch der Modus zu Zebra zu bestimmen. Die Bestimmung des Medians ist hier nicht sinnvoll, da keine klar definierte Ordnung gegeben ist. Noch unsinniger wäre die Bestimmung des arithmetischen Mittels, da unklar ist, was mit   gemeint ist.

In Situationen, in denen eine Ordnungsstruktur gegeben ist, ist auch der Median definiert. Auch in solchen Situationen ist das arithmetische Mittel im Allgemeinen nicht definiert, da aus dem Vorhandensein von größer/kleiner-Relationen nicht folgt, dass addiert werden kann.

EindeutigkeitBearbeiten

Wie bereits im oberen Beispiel gezeigt wurde, ist der Modus im Allgemeinen nicht eindeutig. Im Gegensatz dazu ist der Median eindeutig, jedoch existieren in der Literatur leicht unterschiedliche Definitionen, welche aus verschiedenen pragmatischen Überlegungen entstammen. Daher kann bei Verwendung verschiedener Definitionen der Median auch verschiedene Werte annehmen.

RobustheitBearbeiten

Der Median ist im Gegensatz zum arithmetischen Mittel robust. Dies bedeutet, dass er sich bei Änderungen der Stichprobe in wenigen Werten – z. B. einzelnen Ausreißern – nur wenig verändert. Betrachtet man zum Beispiel die oben gegebene Stichprobe

 ,

so ist wie bereits gezeigt wurde   und  . Betrachtet man nun die Stichprobe

 ,

bei der nur ein Wert verändert wurde, so ergibt sich nach neuerlicher Berechnung für den Median immer noch  , wohingegen für das arithmetische Mittel   gilt. Der Ausreißer macht sich also beim arithmetischen Mittel stark bemerkbar, während er den Median nicht verändert.

Weitere LagemaßeBearbeiten

Quartile und QuantileBearbeiten

Eng mit dem Median verwandt sind die sogenannten (p-)Quantile. Ein  -Quantil ist als diejenige Zahl definiert, so dass ein Anteil von  , also  , der Stichprobe kleiner als das  -Quantil sind und ein Anteil von  , also  , der Stichprobe größer sind als das  -Quantil. Somit ist der Median genau das  -Quantil.

Einige p-Quantile zu speziellen p-Werten tragen Eigennamen, zu ihnen zählen die Terzile, die Quartile, die Quintile, die Dezile und die Perzentile.

Getrimmter MittelwertBearbeiten

Der getrimmte Mittelwert entsteht, wenn man aus einem Datensatz einen gewissen Anteil der größten und der kleinsten Werte weglässt und aus den restlichen Daten das arithmetische Mittel bildet.

Geometrisches MittelBearbeiten

Auch zu den Lageparametern zählt das geometrische Mittel.[4] Es ist definiert als die  -te Wurzel des Produktes der Stichprobenelemente, also

 

für eine Stichprobe  .

Harmonisches MittelBearbeiten

Ein weiterer Lageparameter ist das harmonische Mittel.[5] Es ist gegeben als

 .

Winsorisiertes Mittel und Lehmann-Hodges-MittelBearbeiten

Weitere Lagemaße sind das sogenannte winsorisierte Mittel und das Lehmann-Hodges-Mittel.[6]

EinzelnachweiseBearbeiten

  1. a b Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0, S. 67, doi:10.1007/978-3-658-13640-6.
  2. Helge Toutenburg, Christian Heumann: Deskriptive Statistik. 6. Auflage. Springer-Verlag, Berlin/Heidelberg 2008, ISBN 978-3-540-77787-8, S. 49, doi:10.1007/978-3-540-77788-5.
  3. Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 36, doi:10.1007/978-3-8349-4748-2.
  4. Reinhold Kosfeld, Hans Friedrich Eckey, Matthias Türck: Deskriptive Statistik. Grundlagen – Methoden – Beispiele – Aufgaben. 6. Auflage. Springer Gabler, Wiesbaden 2016, ISBN 978-3-658-13639-0, S. 89, doi:10.1007/978-3-658-13640-6.
  5. Thomas Cleff: Deskriptive Statistik und Explorative Datenanalyse. Eine computergestützte Einführung mit Excel, SPSS und STATA. 3., überarbeitete und erweiterte Auflage. Springer Gabler, Wiesbaden 2015, ISBN 978-3-8349-4747-5, S. 44, doi:10.1007/978-3-8349-4748-2.
  6. Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Für Studium, Berufspraxis und Lehramt. 8. Auflage. Vieweg, Wiesbaden 2005, ISBN 3-8348-0063-5, S. 171, doi:10.1007/978-3-663-09885-0.