David-Hartley-Pearson-Test

Der David-Hartley-Pearson-Test wurde 1954 von den Statistikern H.A. David, H.O. Hartley und E.S. Pearson entwickelt.^[1] Er stellt ein statistisches Verfahren zur Identifikation von Ausreißern dar und überprüft konkret, ob es wahrscheinlich ist, dass ein beobachteter Extremwert (der kleinste oder der größte) zu einer normalverteilten Grundgesamtheit gehört oder dass es sich um einen Ausreißer handelt.

Voraussetzungen

Um Aussagen über einen extremen Beobachtungswert treffen zu können, setzt der David-Hartley-Pearson-Test die Normalverteilung der zugrundeliegenden Grundgesamtheit voraus, es handelt sich also um einen parametrischen Test.

Hypothese

Folgende Nullhypothesen werden beim David-Hartley-Pearson-Test aufgestellt:

H_{0}(1)\colon \!\ x_{(1)}

ist kein Ausreißer vs.

H_{1}(1)\colon \!\ x_{(1)}

ist ein Ausreißer

H_{0}(n)\colon \!\ x_{(n)}

ist kein Ausreißer vs.

H_{1}(n)\colon \!\ x_{(n)}

ist ein Ausreißer

Hierbei bezeichnet $x_{(1)}$ die kleinste und $x_{(n)}$ die größte Beobachtung der Stichprobe.

Teststatistik

Für die Überprüfung der Hypothesen $H_{0}(1)$ und $H_{0}(n)$ wird folgende Teststatistik verwendet:

T={\frac {R}{s}}={\frac {x_{(n)}-x_{(1)}}{\sqrt {\frac {\sum _{i=1}^{n}(x_{(i)}-{\overline {x}})^{2}}{n-1}}}}

,

also die Spannweite der Stichprobe dividiert durch ihre Standardabweichung.

Hierbei wird die Nullhypothese unter dem Signifikanzniveau $\alpha$ verworfen, wenn gilt:

Q_{n;1-\alpha }<T

Hierbei bezeichnet $Q_{n;1-\alpha }$ den kritischen Wert.

Wird die Nullhypothese verworfen, so wird der Extremwert, der den größten Abstand vom Mittelwert hat, als Ausreißer identifiziert. Liegen kleinster und größter Wert im selben Abstand zum Mittelwert, so gelten beide als Ausreißer.^[2]

Kritische Werte

Umfangreiche Tabellen mit kritischen Werten für den David-Hartley-Pearson-Test finden sich bei David u. a. (1954).^[1] Eine Auswahl dieser wird in folgender Tabelle dargestellt:^[2]

$n$	$Q_{n;0,90}$	$Q_{n;0,95}$	$Q_{n;0,975}$	$Q_{n;0,99}$	$Q_{n;0,995}$	$n$	$Q_{n;0,90}$	$Q_{n;0,95}$	$Q_{n;0,975}$	$Q_{n;0,99}$	$Q_{n;0,995}$
3	1,997	1,999	2,000	2,000	2,000	17	4,15	4,31	4,44	4,59	4,69
4	2,409	2,429	2,439	2,445	2,447	18	4,21	4,38	4,51	4,66	4,77
5	2,712	2,753	2,782	2,803	2,813	19	4,27	4,43	4,57	4,73	4,84
6	2,949	3,012	3,056	3,095	3,115	20	4,32	4,49	4,63	4,79	4,91
7	3,143	3,222	3,282	3,338	3,369	30	4,70	4,89	5,06	5,25	5,39
8	3,308	3,399	3,471	3,543	3,585	40	4,96	5,15	5,34	5,54	5,69
9	3,449	3,552	3,634	3,720	3,772	50	5,15	5,35	5,54	5,77	5,91
10	3,57	3,69	3,78	3,88	3,94	60	5,29	5,50	5,70	5,93	6,09
11	3,68	3,80	3,91	4,02	4,08	80	5,51	5,73	5,93	6,18	6,35
12	3,78	3,91	4,01	4,14	4,21	100	5,68	5,90	6,11	6,36	6,54
13	3,87	4,00	4,11	4,25	4,33	150	5,96	6,18	6,39	6,64	6,84
14	3,95	4,09	4,21	4,34	4,44	200	6,15	6,38	6,59	6,85	7,03
15	4,02	4,17	4,29	4,43	4,53	500	6,72	6,94	7,15	7,42	7,60
16	4,09	4,24	4,37	4,51	4,62	1000	7,11	7,33	7,54	7,80	7,99

Beispiel

Zur Veranschaulichung wird von folgender beobachteter Messreihe (bereits sortiert) ausgegangen:^[2]

Bezeichnung der Messung	$x_{1}$	$x_{2}$	$x_{3}$	$x_{4}$	$x_{5}$	$x_{6}$	$x_{7}$	$x_{8}$	$x_{9}$	$x_{10}$	$x_{11}$	$x_{12}$
Messwert (Geschwindigkeit in m/s)	36	37	39	39	40	40	41	41	41	42	44	46

Aus diesen Daten ergibt sich für die Teststatistik:

R=x_{12}-x_{1}=46-36=10

und

s={\sqrt {{\frac {1}{11}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}=2{,}74

,

sodass

T={\frac {R}{s}}={\frac {10}{2{,}74}}=3{,}65<4{,}14=Q_{12;0{,}99}

Damit lässt sich die Nullhypothese nicht verwerfen und weder der größte noch der kleinste Wert werden als Ausreißer identifiziert (auf dem Signifikanzniveau $\alpha =0{,}01$ ).

Einzelnachweise

↑ ^a ^b H. A. David, H. O. Hartley, E. S. Pearson: The distribution of the ratio, in a single, normal sample, of range to standard deviation. In: Biometrika. Nr. 41, 1954, S. 482–493, doi:10.1093/biomet/41.3-4.482, JSTOR:2332728.
↑ ^a ^b ^c J. Hartung: Statistik – Lehr- und Handbuch der angewandten Statistik. 13. Auflage. R. Oldenbourg Verlag, München/Wien 2002.

[The_distribution-1] H. A. David, H. O. Hartley, E. S. Pearson: The distribution of the ratio, in a single, normal sample, of range to standard deviation. In: Biometrika. Nr. 41, 1954, S. 482–493, doi:10.1093/biomet/41.3-4.482, JSTOR:2332728.

[Statistik-2] J. Hartung: Statistik – Lehr- und Handbuch der angewandten Statistik. 13. Auflage. R. Oldenbourg Verlag, München/Wien 2002.

[1]

[2]