Hauptmenü öffnen

Kolmogorow-Smirnow-Test

Statisticum Uninteressantum

Der Kolmogorow-Smirnow-Test (KS-Test) (nach Andrei Nikolajewitsch Kolmogorow und Nikolai Wassiljewitsch Smirnow) ist ein statistischer Test auf Übereinstimmung zweier Wahrscheinlichkeitsverteilungen.

Mit seiner Hilfe kann anhand von Zufallsstichproben geprüft werden, ob

  • zwei Zufallsvariablen die gleiche Verteilung besitzen oder
  • eine Zufallsvariable einer zuvor angenommenen Wahrscheinlichkeitsverteilung folgt.

Im Rahmen des letzteren (Einstichproben-)Anwendungsproblems spricht man auch vom Kolmogorow-Smirnow-Anpassungstest (KSA-Test).

Inhaltsverzeichnis

KonzeptionBearbeiten

Die Konzeption soll anhand des Anpassungstests erläutert werden, wobei der Vergleich zweier Merkmale analog zu verstehen ist. Man betrachtet ein statistisches Merkmal  , dessen Verteilung in der Grundgesamtheit unbekannt ist. Die zweiseitig formulierten Hypothesen lauten dann:

Nullhypothese :

 

(Die Zufallsvariable   besitzt die Wahrscheinlichkeitsverteilung  .)

Alternativhypothese :

 

(Die Zufallsvariable   besitzt eine andere Wahrscheinlichkeitsverteilung als  .)

Der Kolmogorow-Smirnow-Test vergleicht die empirische Verteilungsfunktion   mit  , mittels der Teststatistik

 

wobei sup das Supremum bezeichnet.

Nach dem Gliwenko-Cantelli-Satz strebt die empirische Verteilung gleichmäßig gegen die Verteilungsfunktion von   (also unter   gegen  ). Unter   sollte man also größere Werte bekommen als unter  . Die Teststatistik ist unabhängig von der hypothetischen Verteilung  . Ist der Wert der Teststatistik größer als der entsprechende tabellierte kritische Wert, so wird die Nullhypothese verworfen.

Vorgehensweise beim Einstichprobenproblem (Anpassungstest)Bearbeiten

Von einer reellen Zufallsvariablen   liegen   Beobachtungswerte   ( ) vor, wobei angenommen werde, dass diese bereits aufsteigend sortiert sind:  . Von diesen Beobachtungen wird die relative Summenfunktion (Summenhäufigkeit, empirische Verteilungsfunktion)   ermittelt. Diese empirische Verteilung wird nun mit der entsprechenden hypothetischen Verteilung der Grundgesamtheit verglichen: Es wird der Wert der Wahrscheinlichkeitsverteilung an der Stelle   bestimmt:  . Wenn   tatsächlich dieser Verteilung gehorcht, müssten die beobachtete Häufigkeit   und die erwartete Häufigkeit   in etwa gleich sein.

Falls   stetig ist, kann die Teststatistik auf folgende Weise berechnet werden: Es werden für jedes   die absoluten Differenzen

 

und

 

berechnet("o" für oben, "u" für unten), wobei   gesetzt wird. Es wird sodann die absolut größte Differenz   aus allen Differenzen  ,   ermittelt. Wenn   einen kritischen Wert   übersteigt, wird die Hypothese bei einem Signifikanzniveau   abgelehnt.

Bis   liegen die kritischen Werte tabelliert vor.[1] Für größere   können sie näherungsweise mit Hilfe der einfachen Formel   bestimmt werden.[2] Aus dieser Näherungsformel ergeben sich dann beispielsweise die in der unten stehenden Tabelle aufgeführten Formeln für den Bereich  .

   
   
   
   
   
   
   

Vorgehensweise beim ZweistichprobenproblemBearbeiten

Liegt nun zusätzlich zur obigen Zufallsvariablen   eine entsprechende Zufallsvariable   vor (mit   geordneten Werten  ), so kann durch den Zweistichprobentest überprüft werden, ob   und   derselben Verteilungsfunktion folgen. Die Hypothesen lauten:

Nullhypothese:

 

(Die Zufallsvariablen   und   besitzen die gleiche Wahrscheinlichkeitsverteilung.)

Alternativhypothese:

 

(Die Zufallsvariable   besitzt eine andere Wahrscheinlichkeitsverteilung als  .)

Der Kolmogorow-Smirnow-Test vergleicht die empirische Verteilungsfunktionen (relativen Summenfunktionen)   und   analog zum Einstichprobentest anhand ihrer absoluten Differenzen mittels der Teststatistik

 .

Die Nullhypothese wird bei einem Signifikanzniveau   abgelehnt, falls   den kritischen Wert   überschreitet. Für kleine Werte von   und   liegen die kritischen Werte tabelliert vor [3][4]. Für große Werte von   und   wird die Nullhypothese abgelehnt, falls

 ,

wobei   für große   und   näherungsweise als   berechnet werden kann.

AnwendungsbeispieleBearbeiten

  • Der Kolmogorow-Smirnow-Test kann zum Testen von Zufallszahlen genutzt werden, beispielsweise um zu prüfen, ob die Zufallszahlen einer bestimmten Verteilung (z. B. Gleichverteilung) folgen.
  • Einige (parametrische) statistische Verfahren setzen voraus, dass die untersuchten Variablen in der Grundgesamtheit normalverteilt sind. Der KSA-Test kann genutzt werden, um zu testen, ob diese Annahme verworfen werden muss oder (unter Beachtung des  -Fehlers) beibehalten werden kann.

ZahlenbeispielBearbeiten

 
Vergleich von empirischer und theoretischer Verteilung des Zahlenbeispiels: Links ein Histogramm mit Normalverteilungskurve, rechts die theoretische und die empirische Verteilungsfunktion

In einem Unternehmen, das hochwertige Parfüms herstellt, wurde im Rahmen der Qualitätssicherung an einer Abfüllanlage die abgefüllte Menge für   Flakons gemessen. Es ist das Merkmal  : Abgefüllte Menge in ml.

Es soll geprüft werden, ob noch die bekannten Parameter der Verteilung von   gelten.

Zunächst soll bei einem Signifikanzniveau   getestet werden, ob das Merkmal   in der Grundgesamtheit überhaupt normalverteilt mit den bekannten Parametern   und   ist, also

 

mit   als Normalverteilungssymbol. Es ergibt sich folgende Tabelle:

           
           
           
           
           
           
           
           
           

Hier bezeichnen   die  -te Beobachtung,   den Wert der Summenfunktion der  -ten Beobachtung und   den Wert der Normalverteilungsfunktion an der Stelle   mit den genannten Parametern. Die nächsten Spalten geben die oben angeführten Differenzen an. Der kritische Wert, der bei   und   zur Ablehnung führte, wäre der Betrag  .[1] Die größte absolute Abweichung in der Tabelle ist   in der 3. Zeile. Dieser Wert ist größer als der kritische Wert, daher wird die Hypothese gerade noch abgelehnt. Es ist also zu vermuten, dass die Verteilungshypothese falsch ist. Das kann bedeuten, dass die abgefüllte Menge nicht mehr normalverteilt ist, dass sich die durchschnittliche Abfüllmenge   verschoben hat oder auch, dass sich die Varianz   der Abfüllmenge verändert hat.

Eigenschaften des KS-TestsBearbeiten

Beim Einstichprobenproblem ist der KS-Test im Gegensatz etwa zum  -Test auch für kleine Stichproben geeignet.[5]

Der Kolmogorow-Smirnow-Test ist als nichtparametrischer Test sehr stabil und unanfällig. Ursprünglich wurde der Test für stetig verteilte metrische Merkmale entwickelt; er kann aber auch für diskrete und sogar rangskalierte Merkmale verwendet werden. In diesen Fällen ist der Test etwas weniger trennscharf, d. h. die Nullhypothese wird seltener abgelehnt als im stetigen Fall.

Ein großer Vorteil besteht darin, dass die zugrundeliegende Zufallsvariable keiner Normalverteilung folgen muss. Die Verteilung der Prüfgröße   ist für alle (stetigen) Verteilungen identisch. Dies macht den Test vielseitig einsetzbar, bedingt aber auch seinen Nachteil, denn der KS-Test hat allgemein eine geringe Teststärke. Der Lilliefors-Test ist eine Anpassung des Kolmogorow-Smirnow-Tests für die Testung auf Normalverteilung. Mögliche Alternativen zum KS-Test sind der Cramér-von-Mises-Test, der für beide Anwendungsfälle geeignet ist, sowie der Anderson-Darling-Test für den Vergleich einer Stichprobe mit einer hypothetischen Wahrscheinlichkeitsverteilung.

WeblinksBearbeiten

LiteraturBearbeiten

  • Lothar Sachs, Jürgen Hedderich: Angewandte Statistik. 12., vollständig überarbeitete und erweiterte Auflage. Springer, Berlin/ Heidelberg 2006, ISBN 978-3-540-32161-3.

EinzelnachweiseBearbeiten

  1. a b Critical values for the Kolmogorov-Smirnov Test for goodness of fit. Archiviert vom Original am 18. August 2016; abgerufen am 18. Dezember 2016.
  2. Lothar Sachs, Jürgen Hedderich: Statistik: Angewandte Statistik. 12. Auflage. Springer, Berlin/ Heidelberg 2006, S. 338.
  3. Pearson E.S. and Hartley, H.O. (Hrsg.): Biometrika Tables for Statisticians, Band 2. Cambridge University Press, 1972, S. 117–123, Tables 54, 55, ISBN 0-521-06937-8.
  4. Tabelle der kritischen Werte für den Zweistichprobentest (PDF; 177 kB)
  5. Jürgen Janssen, Wilfried Laatz: Statistische Datenanalyse mit SPSS für Windows. 6. Auflage. Springer, 2007, S. 569.