Streuungsmaß (Statistik)

Streuungsmaße, auch Dispersionsmaße (lateinisch dispersio „Zerstreuung“, von dispergere „verteilen, ausbreiten, zerstreuen“) oder Streuungsparameter genannt, fassen in der deskriptiven Statistik verschiedene Maßzahlen zusammen, die die Streubreite von Beobachtungswerten beziehungsweise einer Häufigkeitsverteilung um einen geeigneten Lageparameter herum beschreiben. Die verschiedenen Berechnungsmethoden unterscheiden sich prinzipiell durch ihre Beeinflussbarkeit beziehungsweise Empfindlichkeit gegenüber Ausreißern.

Anforderungen Bearbeiten

Es sei $(x_{1},\dots ,x_{n})\in \mathbb {R} ^{n}$ ein Vektor von Beobachtungwerten und $s\colon \mathbb {R} ^{n}\rightarrow \mathbb {R}$ eine Funktion. Die Funktion $s$ heißt ein Streuungsmaß, wenn sie im Allgemeinen folgende Anforderungen erfüllt:

$s(x_{1},\dots ,x_{n})$ ist eine nichtnegative reelle Zahl, die Null ist, wenn alle Beobachtungen gleich sind $x_{1}=x_{2}=\ldots =x_{n}={\overline {x}}$ (in den Daten ist keinerlei Variabilität vorhanden), und zunimmt, wenn die Daten vielfältiger werden. Wenn mindestens zwei Merkmalswerte voneinander verschieden sind, dann streuen die Daten untereinander bzw. um einen Mittelwert, was auch beim Streuungsmaß zum Ausdruck kommen sollte.
Bei einem Streuungsmaß wird Nichtnegativität gefordert, da bei Streuung „das Ausmaß“ statt „die Richtung“ konstituierend ist. Ein Streuungsmaß sollte also umso größer sein, je stärker Beobachtungswerte voneinander abweichen. Noch strenger wird oft gefordert, dass sich ein Streuungsmaß bei einer Ersetzung eines Beobachtungswertes durch einen neuen Merkmalswert nicht verkleinern darf.
$s$ ist translationsinvariant^[1], d. h. eine Verschiebung des Nullpunktes hat keinen Einfluss auf die Verteilung. Es muss also folgendes gelten: $s(x_{1}+a,\dots ,x_{n}+a)=s(x_{1},\dots ,x_{n})\;\;\;\forall a\in \mathbb {R}$
Es ist auch wünschenswert, dass das Streuungsmaß gegenüber Maßstabsänderungen invariant ist.^[2]

Ein einfacher Ansatz für ein Streuungsmaß wäre, die Differenzen der Werte vom empirischen Mittel aufzusummieren. Dies führt zu

s(x)=\sum _{i=1}^{n}(x_{i}-{\overline {x}})

Diese Summe ergibt allerdings stets 0, weil sich positive und negative Summanden gegenseitig aufheben (Schwerpunkteigenschaft). Das ist also nicht geeignet als Streuungsmaß, da der Wert nicht zunimmt, wenn die Variabilität der Daten steigt. Möglichkeiten bestehen also darin, die Absolutbeträge oder die Quadrate der Abweichungen zu summieren.

Maßzahlen Bearbeiten

Im Folgenden wird davon ausgegangen, dass $x_{1},\dots ,x_{n}$ reellwertige Beobachtungswerte vorliegen, die inhaltlich zu einer Variablen gehören. Dies können Messwerte sein. Es kann sich um Stichprobenwerte handeln, es kann sich aber auch um die Beobachtungswerte einer Gesamtheit handeln, die nicht als Stichprobe aufgefasst wird. Mit

{\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}

ist der arithmetische Mittelwert der Beobachtungswerte bezeichnet.

Streuung um das arithmetische Mittel Bearbeiten

Summe der Abweichungsquadrate Bearbeiten

Ein intuitives Streuungsmaß ist die Summe der Abweichungsquadrate, bei der die quadrierten Abweichungen der Beobachtungswerte vom arithmetischen Mittelwert aufsummiert werden,

SQ:=\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}\;.

Empirische Varianz Bearbeiten

Einer der wichtigsten Streuungsparameter ist die Varianz der Beobachtungswerte, die als

s^{2}={\frac {1}{n}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}

definiert ist und die äquivalente Darstellung

s^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\bar {x}}^{2}

besitzt.^[3]

In der induktiven Statistik sind die Beobachtungswerte $x_{1},\dots ,x_{n}$ Stichprobenwerte aus einer Grundgesamtheit und Realisierungen von Stichprobenvariablen $X_{1},\dots ,X_{n}$ . Wenn mit Hilfe einer Streuungsmaßzahl der Stichprobe auf die Varianz der Grundgesamtheit geschlossen werden soll, wird die sogenannte korrigierte Stichprobenvarianz

s^{*2}={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}

verwendet, da die zugehörige Stichprobenfunktion

S^{*2}={\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(X_{i}-{\overline {X}}\right)^{2}

eine erwartungstreue Schätzfunktion für die Varianz der Grundgesamtheit ist. In einem rein beschreibenden Kontext der deskriptiven Statistik ist die Verwendung der korrigierten Stichprobenvarianz nicht zu rechtfertigen.

In vielen Anwendungsbereichen, in denen die Stichprobeninterpretation der beobachteten Werte der Standardfall ist (z. B. Messungen in der Technik und Biometrie) wird die korrigierte Stichprobenvarianz als die Stichprobenvarianz bezeichnet und meistens mit $s^{2}$ bezeichnet. Auch in Darstellungen der induktiven Statistik wird häufig das Symbol $S^{2}$ für die oben mit $S^{*2}$ bezeichnete Größe verwendet.

Empirische Standardabweichung Bearbeiten

Die Standardabweichung ist definiert als die Wurzel aus der Varianz und ist demnach

s={\sqrt {{\frac {1}{n}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}\;.

Ein wesentlicher Unterschied zur Varianz ist, dass die Standardabweichung dieselbe Dimension und damit dieselben Einheiten wie die Beobachtungswerte besitzt.

In der induktiven Statistik wird die korrigierte Standardabweichung

s^{*}={\sqrt {{\frac {1}{n-1}}\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}}

als Schätzwert für die Standardabweichung der Grundgesamtheit verwendet.

Variationskoeffizient Bearbeiten

Der empirische Variationskoeffizient wird gebildet als Quotient aus empirischer Standardabweichung $s$ und arithmetischem Mittel ${\overline {x}}$ :

v={\frac {s}{\overline {x}}},\quad {\overline {x}}>0

.

Er ist dimensionslos und somit nicht einheitenbehaftet.

Mittlere absolute Abweichung Bearbeiten

Im Falle einer konkreten Stichprobe $x_{1},\dots ,x_{n}$ mit dem arithmetischen Mittel ${\overline {x}}$ wird sie errechnet durch

\operatorname {e} ={\frac {1}{n}}\sum _{i=1}^{n}\left|x_{i}-{\overline {x}}\right|.

Die mittlere absolute Abweichung wird in der mathematischen Statistik meist zugunsten der quadratischen Abweichung umgangen, welche analytisch leichter zu behandeln ist. Die in der Definition verwendete Betragsfunktion ist nicht überall differenzierbar, was die Berechnung des Minimums erschwert.

Aufgrund der Ungleichung vom arithmetisch-quadratischen Mittel ist die mittlere absolute Abweichung kleiner oder gleich der Standardabweichung (Gleichheit gilt nur für konstante Zufallsgrößen).

Streuung um den Median Bearbeiten

Quantilsabstand Bearbeiten

Der Quantilsabstand ist die Differenz zwischen dem $p$ - und $\left(1-p\right)$ -Quantil:

QA_{p}=Q_{1-p}-Q_{p}\;

mit

\;0\leq p<0{,}5

Innerhalb des $QA_{p}$ liegen etwa $100\cdot (1-2p)$ Prozent aller Messwerte.

Interquartilsabstand Bearbeiten

Der Interquartilsabstand (engl. interquartile range), abgekürzt IQR, wird als Differenz der Quartile $Q_{0{,}75}$ und $Q_{0{,}25}$ berechnet:

IQR=Q_{0{,}75}-Q_{0{,}25}

Innerhalb des IQR liegen 50 % aller Messwerte. Er ist – wie auch der Median bzw. $Q_{0{,}5}$ – unempfindlich gegenüber Ausreißern. Es lässt sich zeigen, dass er einen Bruchpunkt von $\varepsilon ^{*}=0{,}25$ hat.

Der Interquartilsabstand ist gleich dem Quantilsabstand $QA_{0{,}25}$

Mittlere absolute Abweichung vom Median Bearbeiten

Für $n$ beobachtete Werte $x_{1},\dots ,x_{n}$ mit dem (eindeutigen) Median ${\tilde {x}}$ ist die Mittlere absolute Abweichung vom Median als

\operatorname {MD} ={\frac {1}{n}}\sum _{i=1}^{n}\left|x_{i}-{\tilde {x}}\right|

definiert. Aufgrund der Extremaleigenschaft des Medians gilt im Vergleich mit der mittleren absoluten Abweichung stets

\operatorname {MD} \leq \operatorname {e}

,

d. h. die mittlere absolute Abweichung bezüglich des Medians ist erst recht kleiner als die Standardabweichung.

Median der absoluten Abweichungen vom Median Bearbeiten

Für Beobachtungswerte $x_{1},\dots ,x_{n}$ ist die mittlere absolute Abweichung (engl. median absolute deviation, auch MedMed), abgekürzt MAD, ist definiert durch

\operatorname {MAD} =\operatorname {median} \{\left|x_{i}-{\tilde {x}}\right|\mid i=1,\dots ,n\}

Die mittlere absolute Abweichung ist ein robuster Schätzer für die Standardabweichung. Es lässt sich zeigen, dass sie einen Bruchpunkt von $\varepsilon ^{*}=0{,}5$ hat.

Weitere Streuungsmaße Bearbeiten

Spannweite Bearbeiten

Die Spannweite (englisch range) $R$ berechnet sich als Differenz zwischen dem größten und dem kleinsten Messwert:

R=x_{\max }-x_{\min }

Da die Spannweite nur aus den zwei Extremwerten berechnet wird, ist sie nicht robust gegenüber Ausreißern.

Geometrische Standardabweichung Bearbeiten

Die geometrische Standardabweichung ist ein Streuungsmaß um das geometrische Mittel.

Streuungsmaßzahlen in der Wahrscheinlichkeitstheorie Bearbeiten

In der Wahrscheinlichkeitstheorie charakterisieren Streuungsmaßzahlen Eigenschaften einer Wahrscheinlichkeitsverteilung.

Interquartilsabstand Bearbeiten

Der Interquartilsabstand (engl. interquartile range), abgekürzt IQR, ist als Differenz der Quartile $Q_{0{,}75}$ und $Q_{0{,}25}$ definiert,

IQR=Q_{0{,}75}-Q_{0{,}25}\;.

Mittlere absolute Abweichung vom Erwartungswert Bearbeiten

Die mittlere absolute Abweichung $e$ einer Zufallsvariablen $X$ von ihrem Erwartungswert $\mu =\operatorname {E} (X)$ ist definiert durch

\operatorname {e} :=\operatorname {E} \left(\left|X-\mu \right|\right)

.

Damit ist sie das erste absolute zentrierte Moment der Zufallsvariablen $X$ .

Für symmetrische Verteilungen, d. h. Verteilungen mit der Eigenschaft $f(\mu -x)=f(\mu +x)$ für alle reellen $x$ , mit monoton fallender Dichte für $x>\mu$ , gilt

IQR\leq 2\operatorname {e}

.

Für die stetige Gleichverteilung gilt das Gleichheitszeichen.

Median der absoluten Abweichungen vom Median Bearbeiten

Die mittlere absolute Abweichung (engl. median absolute deviation, auch MedMed), abgekürzt MAD, ist definiert durch

P(\left|X-{\tilde {x}}\right|\leq \operatorname {MAD} )=0{,}5\;.

Im Fall der Normalverteilung besteht der Zusammenhang

\operatorname {MAD} =z_{0{,}75}\cdot \sigma \approx 0,6745\cdot \sigma

zur Standardabweichung. Dabei bezeichnet $z_{0{,}75}$ das 0,75-Quantil der Standardnormalverteilung.

Mittlere absolute Abweichung vom Median Bearbeiten

Die mittlere absolute Abweichung (engl. mean deviation from the median, abgekürzt MD) vom Median ${\tilde {x}}$ ist definiert durch

\operatorname {MD} =\operatorname {E} \left[\left|X-{\tilde {x}}\right|\right]\;.

Für die Normalverteilung gilt

\operatorname {MD} =\operatorname {e} ={\sqrt {\frac {2}{\pi }}}\cdot \sigma \approx 0{,}80\cdot \sigma \;.

Für symmetrische Verteilungen stimmen Median (falls dieser eindeutig ist) und Erwartungswert (falls dieser existiert und endlich ist) überein, sodass in diesem Fall $\operatorname {MD} =\operatorname {e}$ gilt.

Graphische Darstellungsformen Bearbeiten

Siehe auch Bearbeiten

Dispersionsindex

Einzelnachweise Bearbeiten

↑ Andreas Büchter, H.-W. Henn: Elementare Stochastik - Eine Einführung. 2. Auflage. Springer, 2007, ISBN 978-3-540-45382-6, S. 83.
↑ Hans Friedrich Eckey et al.: Statistik: Grundlagen — Methoden — Beispiele., S. 74. (1. Aufl. 1992; 3. Aufl. 2002, ISBN 3-409-32701-0). Die 4. Aufl. 2005 und die 5. Aufl. 2008 erschienen unter dem Titel Deskriptive Statistik: Grundlagen — Methoden — Beispiele).
↑ Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, A 2.3.2 Streuungsparameter – Varianz, S. 43.

Literatur Bearbeiten

P. H. Müller (Hrsg.): Lexikon der Stochastik – Wahrscheinlichkeitsrechnung und mathematische Statistik. 5. Auflage. Akademie-Verlag, Berlin 1991, ISBN 978-3-05-500608-1, Streuungsmaße (measures of dispersion), S. 428–429.
Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, A 2.3.2 Streuungsparameter, S. 42–46.
Bernd Rönz, Hans Gerhard Strohe (Hrsg.): Lexikon Statistik. Gabler, Wiesbaden 1994, ISBN 3-409-19952-7, Streuungsmaß, S. 353.

Weblinks Bearbeiten

Wiktionary: Streuung – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

[Buechter83-1] Andreas Büchter, H.-W. Henn: Elementare Stochastik - Eine Einführung. 2. Auflage. Springer, 2007, ISBN 978-3-540-45382-6, S. 83.

[2] Hans Friedrich Eckey et al.: Statistik: Grundlagen — Methoden — Beispiele., S. 74. (1. Aufl. 1992; 3. Aufl. 2002, ISBN 3-409-32701-0). Die 4. Aufl. 2005 und die 5. Aufl. 2008 erschienen unter dem Titel Deskriptive Statistik: Grundlagen — Methoden — Beispiele).

[3] Horst Rinne: Taschenbuch der Statistik. 4. Auflage. Harri Deutsch, Frankfurt am Main 2008, ISBN 978-3-8171-1827-4, A 2.3.2 Streuungsparameter – Varianz, S. 43.

[1]

[2]

[3]