Wilcoxon-Mann-Whitney-Test

Der Wilcoxon-Mann-Whitney-Test (auch: Mann-Whitney-U-Test, U-Test, Wilcoxon-Rangsummentest) ist die zusammenfassende Bezeichnung für zwei äquivalente nichtparametrische statistische Tests für Rangdaten (ordinalskalierte Daten). Sie testen, ob es bei Betrachtung zweier Populationen gleich wahrscheinlich ist, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population. Bei Verwerfung dieser Hypothese ist anzunehmen, dass die Werte aus der einen Population dazu tendieren, größer bzw. kleiner zu sein als die aus der anderen Population. Der Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest ist – anders als der Median-Test – nicht von vornherein ein Test zur Gleichheit zweier Mediane. Dies ist nur unter der Voraussetzung der Fall, dass die Verteilungsform und Streuung der abhängigen Variable in beiden Gruppen gleich ist.

Die Tests wurden von Henry Mann und Donald Whitney (U-Test, 1947) bzw. Frank Wilcoxon (Wilcoxon-Rangsummentest, 1945) entwickelt.^[1]^[2] Die zentrale Idee des Tests wurde bereits 1914 von dem deutschen Pädagogen Gustaf Deuchler entwickelt.^[3]

Praktisch findet der Wilcoxon-Rangsummentest bzw. der U-Test als Alternative zum t-Test für unabhängige Stichproben Anwendung, wenn dessen Voraussetzungen verletzt sind. Dies ist unter anderem der Fall, wenn die zu testende Variable nur Ordinalskalenniveau aufweist, oder wenn intervallskalierte Variablen in den beiden Populationen nicht (näherungsweise) normalverteilt sind.

Der Wilcoxon-Rangsummentest für zwei unabhängige Stichproben ist nicht zu verwechseln mit dem Wilcoxon-Vorzeichen-Rang-Test, der bei zwei verbundenen (gepaarten) Stichproben Anwendung findet.

Annahmen Bearbeiten

Für den Test zieht man eine Stichprobe $x_{1},\ldots ,x_{n}$ vom Umfang $n$ aus der 1. Population und unabhängig davon eine Stichprobe $y_{1},\ldots ,y_{m}$ vom Umfang $m$ aus der 2. Population. Für die zugehörigen unabhängigen Stichprobenvariablen $X_{1},\ldots ,X_{n}$ und $Y_{1},\ldots ,Y_{m}$ gilt $X_{i}\sim F_{X}$ und $Y_{i}\sim F_{Y}$ , wobei $F_{X},F_{Y}$ Verteilungsfunktionen sind. Der Wilcoxon-Mann-Whitney-Test ist ein valider Test unter verschiedenen Annahmen und Hypothesen^[4]. Eine sehr allgemeine Formulierung ist wie folgt^[5].

Die untersuchte Variable ist mindestens ordinal.
Die Nullhypothese ist: Es ist gleich wahrscheinlich, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population (notiert als $H_{0}:P(X>Y)=P(X<Y)$ oder $H_{0}:P(X<Y)+0.5P(X=Y)=0.5$ )
Die Alternativhypothese ist: Es ist nicht gleich wahrscheinlich, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population (notiert als $H_{1}:P(X>Y)\neq P(X<Y)$ oder $H_{1}:P(X<Y)+0.5P(X=Y)\neq 0.5$ )
Wenn die Nullhypothese wahr ist, dann sind die beiden Verteilungen gleich: $F_{X}=F_{Y}$ .

Unter diesen Annahmen ist der Test exakt und konsistent.

Verschiedene andere Perspektiven auf den Wilcoxon-Mann-Whitney-Test sind Spezialfälle dieser allgemeinen Formulierung unter stärkeren Annahmen.

Unter der Annahme, dass $F_{X}$ bzw. $F_{Y}$ , stetig sind und sich nur um eine Verschiebung $a$ voneinander unterscheiden, das heißt: $F_{Y}(x)=F_{X}(x-a)\,$ . Weil die beiden Verteilungsfunktionen bis auf Verschiebung gleich sind, muss insbesondere $\sigma _{X}=\sigma _{Y}$ (Varianzhomogenität) gelten. D. h. bei Ablehnung der Varianzhomogenität durch den Bartlett-Test oder Levene-Test unterscheiden sich die beiden Zufallsvariablen X und Y nicht nur durch eine Verschiebung.
- Nullhypothese: Verschiebung ist 0, $H_{0}:a=0$ , oder Gleichheit der Mediane der zwei Populationen, $H_{0}:{\tilde {X}}={\tilde {Y}}$
- Alternativhypothese: Verschiebung ist ungleich 0, $H_{A}:a\neq 0$ , oder Ungleichheit der Mediane der zwei Populationen $H_{A}:{\tilde {X}}\neq {\tilde {Y}}$ .
Unter der zusätzlichen Annahme, dass der arithmetische Mittelwert für beide Populationen existiert
1. Nullhypothese: Gleichheit der Populationsmittelwerte, $H_{0}:{\bar {X}}={\bar {Y}}$
2. Alternativhypothese: Ungleichheit der Populationsmittelwerte, $H_{1}:{\bar {X}}\neq {\bar {Y}}$

Dies folgt, da unter allen alternativen Perspektiven die Nullhypothese (zusammen mit den Annahmen) Gleichheit der Verteilungen impliziert und die Alternativhypothese genau dann wahr ist wenn $P(X>Y)\neq P(X<Y)$ .

Teststatistik Bearbeiten

Es gibt zwei Teststatistiken: die Mann-Whitney-U-Statistik $U$ und die Wilcoxon-Rangsummenstatistik $W_{m,n}$ . Aufgrund des Zusammenhangs zwischen den Teststatistiken

W_{m,n}=U+{\frac {m(m+1)}{2}}

sind der Wilcoxon-Rangsummentest und der Mann-Whitney-U-Test äquivalent.

Mann-Whitney-U-Statistik Bearbeiten

Die Teststatistik ist die Mann-Whitney-U-Statistik:

U=\sum _{i=1}^{m}\sum _{j=1}^{n}S(x_{i},y_{j})

,

worin $S(x,y)=1$ , wenn $y<x$ , $S(x,y)={\frac {1}{2}}$ , wenn $x=y$ , und sonst $S(x,y)=0$ ist. Abhängig von der Alternativhypothese wird die Nullhypothese abgelehnt für zu kleine oder zu große Werte von $U$ . In dieser Form findet er sich bei Mann und Whitney und wird oft als Mann-Whitney-U-Test bezeichnet.

Exakte kritische Werte Bearbeiten

Die exakte Verteilung von $U$ unter der Bedingung der Nullhypothese kann mittels kombinatorischer Überlegungen leicht gefunden werden. Allerdings steigt der Rechenaufwand für große Werte von $m,n$ rasch an. Einige exakte kritische Werte liegen tabelliert vor und können für kleine Stichprobenumfänge der Tabelle unten entnommen werden ( $\alpha =5\,\%$ beim zweiseitigen Test und $\alpha =2,5\,\%$ beim einseitigen Test).

Es gibt eine Rekursionsformel, die eine schrittweise und wenig rechenzeitintensive Ermittlung der kritischen Werte für geringe Stichprobengrößen erlaubt.^[6]

Approximative kritische Werte Bearbeiten

Für $m>3$ , $n>3$ und $m+n>19$ kann

U\approx N\left({\frac {m\,n}{2}};{\frac {n\,m\,(n+m+1)}{12}}\right)

durch die Normalverteilung approximiert werden.^[7] Die kritischen Werte ergeben sich dann aus den kritischen Werten der approximativen Normalverteilung.

Wilcoxon-Rangsummenstatistik Bearbeiten

Die Wilcoxon-Rangsummenstatistik ist

W_{m,n}=\sum _{i=1}^{m}R(X_{i})

mit $R(X_{i})$ der Rang der i-ten X in der gepoolten, geordneten Stichprobe. In dieser Form trägt der Test häufig die Bezeichnung Wilcoxon-Rangsummentest.

Exakte kritische Werte Bearbeiten

Die exakte Verteilung von $W_{m,n}$ unter der Bedingung der Nullhypothese kann mittels kombinatorischer Überlegungen leicht gefunden werden. Allerdings steigt der Rechenaufwand für große Werte von $m,n$ rasch an. Man kann die exakten kritischen Werte $w$ zum Signifikanzniveau $\alpha$ mittels einer Rekursionsformel berechnen:

P(W_{m-1,n}=w)=\alpha

(oder

=\alpha /2

oder

=1-\alpha

oder

=1-\alpha /2

)

Die Formel entsteht, wenn man konditioniert auf die Bedingung, ob der letzte Wert in der Anordnung ein × (...X) oder ein Y (...Y) ist.

P(W_{m,n}=w)=P(W_{m,n}=w|...X)P(...X)+P(W_{m,n}=w|...Y)P(...Y)=\,

=P(W_{m-1,n}=w-m-n){\frac {m}{m+n}}+P(W_{m,n-1}=w){\frac {n}{m+n}}

Approximative kritische Werte Bearbeiten

Für $m>25$ oder $n>25$ (auch: $m>10$ oder $n>10$ ) kann die Teststatistik

W_{m,n}\approx N\left({\frac {m\,(n+m+1)}{2}};{\frac {n\,m\,(n+m+1)}{12}}\right)

durch die Normalverteilung approximiert werden.^[8]^[9] Die kritischen Werte ergeben sich dann aus den kritischen Werten der approximativen Normalverteilung.

Einseitige Hypothesen Bearbeiten

Der Test kann auch für die einseitigen Hypothesen

H_{0}:a\leq 0{\text{ vs. }}H_{1}:a>0

bzw.

H_{0}:a\geq 0{\text{ vs. }}H_{1}:a<0

formuliert werden.

Beispiel Bearbeiten

Aus den Daten der allgemeinen Bevölkerungsumfrage der Sozialwissenschaften 2006 wurden zufällig 20 Personen gezogen und ihr Nettoeinkommen ermittelt:

Rang	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20
Nettoeinkommen	0	400	500	550	600	650	750	800	900	950	1000	1100	1200	1500	1600	1800	1900	2000	2200	3500
Geschlecht	M	W	M	W	M	W	M	M	W	W	M	M	W	M	W	M	M	M	M	M

Man hat zwei Stichproben vor sich, Stichprobe der Männer mit $13$ Werten und Stichprobe der Frauen mit $7$ Werten. Wir könnten nun prüfen, ob das Einkommen der Männer und Frauen gleich ist (zweiseitiger Test) oder das Einkommen der Frauen geringer (einseitiger Test). Da es unrealistisch ist anzunehmen, dass sich die Einkommen von Männer und Frauen nur um eine Verschiebung $a$ voneinander unterscheiden, nehmen wir die allgemeinste Perspektive an. Das heißt, wir testen

Zweiseitiger Test	Einseitiger Test
$H_{0}:P(X>Y)=P(X<Y){\text{ vs. }}H_{1}:P(X>Y)\neq P(X<Y)$	$H_{0}:P(X>Y)=P(X<Y){\text{ vs. }}H_{1}:P(X>Y)>P(X<Y)$

Wir müssen zudem annehmen, dass wenn die Nullhypothese gilt die Einkommensverteilungen komplett gleich sind.

Zunächst wird aus beiden Zahlenreihen je eine Prüfgröße $U$ gebildet:

U_{1}=n_{1}\cdot n_{2}+{\frac {n_{1}\cdot (n_{1}+1)}{2}}-R_{1}

U_{2}=n_{1}\cdot n_{2}+{\frac {n_{2}\cdot (n_{2}+1)}{2}}-R_{2}

$n_{1}$ und $n_{2}$ sind dabei die Anzahlen der Werte pro Stichprobe, $R_{1}$ und $R_{2}$ sind die jeweiligen Summen aller Rangzahlen pro Stichprobe. (Sind mehrere Werte in beiden Datensätzen identisch, dann muss für ihre Ränge jeweils der Median bzw. das arithmetische Mittel eingetragen werden.) Für die folgenden Tests benötigt man das Minimum von $U_{1}$ und $U_{2}$ , also $\min(U)=\min(U_{1},U_{2})$ .

Für unser Beispiel ergibt sich (Index M = Männer, W = Frauen)

R_{M}=151

und

U_{M}=31

.

R_{W}=59

und

U_{W}=60

und

\min(U)=31

.

Bei korrekter Berechnung muss gelten $R_{1}+R_{2}=(n_{1}+n_{2})(n_{1}+n_{2}+1)/2$ bzw. $U_{1}+U_{2}=n_{1}n_{2}$ . Die Testgröße $\min(U)$ wird nun mit den kritischen Wert(en) verglichen. Das Beispiel ist so gewählt, dass sowohl ein Vergleich mit den exakten kritischen Werten als auch mit den approximativen Werten möglich ist.

Zweiseitiger Test Bearbeiten

Exakte kritische Werte Bearbeiten

Anhand der untenstehenden Tabelle ergibt sich mit $n_{1}=13$ und $n_{2}=7$ ein kritischer Wert von $U_{\text{krit}}=20$ für ein Signifikanzniveau von $\alpha =5\,\%$ . Abgelehnt wird die Nullhypothese, wenn $\min(U)\leq U_{\text{krit}}$ ist; dies ist hier aber nicht der Fall.

Approximative kritische Werte Bearbeiten

Da die Teststatistik $U$ approximativ normal verteilt ist, folgt, dass die

Z={\frac {U-{\frac {n_{1}n_{2}}{2}}}{\sqrt {\frac {n_{1}n_{2}(n_{1}+n_{2}+1)}{12}}}}\approx N(0;1)

verteilt ist. Für ein Signifikanzniveau von $\alpha =5\,\%$ ergibt sich der Nichtablehnungsbereich der Nullhypothese im zweiseitigen Test durch das 2,5%- bzw. 97,5%-Quantil der Standardnormalverteilung $N(0;1)$ mit $[-1{,}96;+1{,}96]$ . Es ergibt sich jedoch $z={\tfrac {31-45{,}5}{\sqrt {159{,}25}}}\approx -1{,}15$ , d. h., der Prüfwert liegt innerhalb des Intervalls und die Nullhypothese kann nicht abgelehnt werden.

Einseitiger Test Bearbeiten

Exakte kritische Werte Bearbeiten

Anhand der untenstehenden Tabelle ergibt sich mit $n_{1}=13$ und $n_{2}=7$ ein kritischer Wert von $U_{\text{krit}}=20$ für ein Signifikanzniveau von $\alpha =2{,}5\,\%$ (anderes Signifikanzniveau als beim zweiseitigen Test!). Abgelehnt wird die Nullhypothese, wenn $U_{M}\leq U_{\text{krit}}$ ist (es ist das passende $U$ für das gewählte einseitige Testproblem zu betrachten); dies ist hier nicht der Fall.

Approximative kritische Werte Bearbeiten

Für ein Signifikanzniveau von $\alpha =5\,\%$ ergibt sich der kritische Wert als das 5%-Quantil der Standardnormalverteilung $N(0;1)$ und der Nichtablehnungsbereich der Nullhypothese als $[-1{,}65;+\infty [$ . Es ergibt sich jedoch $z={\tfrac {31-45{,}5}{\sqrt {159{,}25}}}\approx -1{,}15$ , d. h., die Nullhypothese kann nicht abgelehnt werden.

Tabelle der kritischen Werte der Mann-Whitney-U-Statistik Bearbeiten

Die folgende Tabelle ist gültig für $\alpha =5\,\%$ (zweiseitig) bzw. $\alpha =2{,}5\,\%$ (einseitig) mit $n_{2}\leq n_{1}$ . Der Eintrag „-“ bedeutet, dass die Nullhypothese in jedem Fall zu dem gegebenen Signifikanzniveau nicht abgelehnt werden kann. Z. B. ist:

P(U\leq 55|H_{0},n_{1}=20,n_{2}=10)\leq 0{,}025

und

P(U\leq 56|H_{0},n_{1}=20,n_{2}=10)>0{,}025,

so dass 55 der geeignete kritische Wert für den einseitigen Test bei $\alpha =2{,}5\,\%$ mit $n_{1}=20$ und $n_{2}=10$ ist.

	$n_{1}$
$n_{2}$	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19	20	21	22	23	24	25	26	27	28	29	30	31	32	33	34	35	36	37	38	39	40
1	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	-	0	0
2		-	-	-	-	-	-	0	0	0	0	1	1	1	1	1	2	2	2	2	3	3	3	3	3	4	4	4	4	5	5	5	5	5	6	6	6	6	7	7
3			-	-	0	1	1	2	2	3	3	4	4	5	5	6	6	7	7	8	8	9	9	10	10	11	11	12	13	13	14	14	15	15	16	16	17	17	18	18
4				0	1	2	3	4	4	5	6	7	8	9	10	11	11	12	13	14	15	16	17	17	18	19	20	21	22	23	24	24	25	26	27	28	29	30	31	31
5					2	3	5	6	7	8	9	11	12	13	14	15	17	18	19	20	22	23	24	25	27	28	29	30	32	33	34	35	37	38	39	40	41	43	44	45
6						5	6	8	10	11	13	14	16	17	19	21	22	24	25	27	29	30	32	33	35	37	38	40	42	43	45	46	48	50	51	53	55	56	58	59
7							8	10	12	14	16	18	20	22	24	26	28	30	32	34	36	38	40	42	44	46	48	50	52	54	56	58	60	62	64	66	68	70	72	74
8								13	15	17	19	22	24	26	29	31	34	36	38	41	43	45	48	50	53	55	57	60	62	65	67	69	72	74	77	79	81	84	86	89
9									17	20	23	26	28	31	34	37	39	42	45	48	50	53	56	59	62	64	67	70	73	76	78	81	84	87	89	92	95	98	101	103
10										23	26	29	33	36	39	42	45	48	52	55	58	61	64	67	71	74	77	80	83	87	90	93	96	99	103	106	109	112	115	119
11											30	33	37	40	44	47	51	55	58	62	65	69	73	76	80	83	87	90	94	98	101	105	108	112	116	119	123	127	130	134
12												37	41	45	49	53	57	61	65	69	73	77	81	85	89	93	97	101	105	109	113	117	121	125	129	133	137	141	145	149
13													45	50	54	59	63	67	72	76	80	85	89	94	98	102	107	111	116	120	125	129	133	138	142	147	151	156	160	165
14														55	59	64	69	74	78	83	88	93	98	102	107	112	117	122	127	131	136	141	146	151	156	161	165	170	175	180
15															64	70	75	80	85	90	96	101	106	111	117	122	127	132	138	143	148	153	159	164	169	174	180	185	190	196
16																75	81	86	92	98	103	109	115	120	126	132	137	143	149	154	160	166	171	177	183	188	194	200	206	211
17																	87	93	99	105	111	117	123	129	135	141	147	154	160	166	172	178	184	190	196	202	209	215	221	227
18																		99	106	112	119	125	132	138	145	151	158	164	171	177	184	190	197	203	210	216	223	230	236	243
19																			113	119	126	133	140	147	154	161	168	175	182	189	196	203	210	217	224	231	238	245	252	258
20																				127	134	141	149	156	163	171	178	186	193	200	208	215	222	230	237	245	252	259	267	274

Implementierung Bearbeiten

In vielen Softwarepaketen ist der Mann-Whitney-Wilcoxon-Test (der Hypothese der gleichen Verteilungen gegenüber geeigneten Alternativen) schlecht dokumentiert. Einige Pakete behandeln Bindungen falsch oder dokumentieren asymptotische Techniken nicht (z. B. Korrektur für Kontinuität). Bei einer Überprüfung im Jahr 2000 wurden einige der folgenden Pakete diskutiert:^[10]

MATLAB hat in seinem Statistics Toolbox eine Rangsummentest (ranksum) ranksum Funktion.
R implementiert den Test in seinem „stats“ wilcox.test Paket.
SAS implementiert den Test in seinem PROC NPAR1WAY Verfahren.
Python (Programmiersprache) hat eine Implementierung dieses Tests über SciPy^[11]
SigmaStat (SPSS Inc., Chicago, IL)
SYSTAT (SPSS Inc., Chicago, IL)
Java implementiert den Test über Apache Commons^[12]
JMP (SAS Institute Inc., Cary, NC)
S-Plus (Mathsoft, Inc., Seattle, WA)
STATISTICA (StatSoft, Inc., Tulsa, OK)
UNISTAT (Unistat Ltd, London)
SPSS (SPSS Inc, Chicago)
StatsDirect (StatsDirect Ltd, Manchester, UK) implementiert den test über Analysis_Nonparametric_Mann-Whitney.
Stata (Stata Corporation, College Station, TX) implementiert den Test in seinem ranksum Kommando.
StatXact (Cytel Software Corporation, Cambridge, Massachusetts).
PSPP implementiert den Test in seiner WILCOXON Funktion.

Alternativen Bearbeiten

Falls die Annahme der Gleichheit der Populationsverteilungen unter der Nullhypothese nicht realistisch ist, sollte der Wilcoxon-Mann-Whitney Test nicht benutzt werden. In diesem Fall kann die Wahrscheinlichkeit für einen Fehler 1. Art selbst in sehr großen Stichproben stark erhöht sein^[13]. Dieses Problem wurde durch die Entwicklung alternativer Tests behoben. Zwei Beispiele sind der Brunner-Munzel und der Fligner-Policello-Test^[14]. Beide Tests sind approximativ exakte und konsistente Tests für $H_{0}:P(X>Y)=P(X<Y)$ vs $H_{1}:P(X>Y)\neq P(X<Y)$ , das heißt, sie testen die gleiche Hypothese wie der Wilcoxon-Mann-Whitney-Test, aber benötigen nicht die Annahme der Gleichheit der Verteilungen unter der Nullhypothese. Daher wird empfohlen den Brunner-Munzel Test anzuwenden, wenn die Annahme der Gleichheit der Populationsverteilungen unter der Nullhypothese nicht gemacht werden kann^[13].

Literatur Bearbeiten

Herbert Büning, Götz Trenkler: Nichtparametrische statistische Methoden. de Gruyter, 1998, ISBN 3-11-016351-9.
Sidney Siegel: Nichtparametrische statistische Methoden. 2. Auflage. Fachbuchhandlung für Psychologie, Eschborn bei Frankfurt am Main 1985, ISBN 3-88074-102-6.

Weblinks Bearbeiten

Social Science Statistics Mann-Whitney-Test (engl., Möglichkeit zur Berechnung von Werten)
VassarStats Mann-Whitney-Test (engl., Möglichkeit zur Berechnung von Werten)
Mann-Whitney U test (engl.)
Rangsummentest Mann-Whitney-U-Test (Erklärung des Testverfahrens auf Deutsch und Beispiele)

Einzelnachweise Bearbeiten

↑ Frank Wilcoxon: Individual Comparisons by Ranking Methods. In: Biometrics Bulletin. 1, 1945, S. 80–83, JSTOR:3001968.
↑ Henry Mann, Donald Whitney: On a test of whether one of two random variables is stochastically larger than the other. In: Annals of mathematical Statistics. 18, 1947, S. 50–60, doi:10.1214/aoms/1177730491.
↑ William H. Kruskal: Historical Notes on the Wilcoxon Unpaired Two-Sample Test. In: Journal of the American Statistical Association. Band 52, 1957, S. 356–360, JSTOR:2280906.
↑ Michael P. Fay, Michael A. Proschan: Wilcoxon-Mann-Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules. In: Statistics surveys. Band 4, 2010, ISSN 1935-7516, S. 1–39, doi:10.1214/09-SS051, PMID 20414472, PMC 2857732 (freier Volltext).
↑ George W. Divine, H. James Norton, Anna E. Barón, Elizabeth Juarez-Colunga: The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians. In: The American Statistician. Band 72, Nr. 3, 3. Juli 2018, ISSN 0003-1305, S. 278–286, doi:10.1080/00031305.2017.1305291.
↑ A. Löffler: Über eine Partition der natürlichen Zahlen und ihre Anwendung beim U-Test. In: Wiss. Z. Univ. Halle. Band XXXII, Heft 5 1983, S. 87–89. (German_version, English_translation)
↑ B. Rönz, H. G. Strohe (Hrsg.): Lexikon Statistik. Gabler, Wiesbaden 1994, ISBN 3-409-19952-7.
↑ H. Rinne: Taschenbuch der Statistik. 3. Auflage. Verlag Harri Deutsch, 2003, S. 534.
↑ S. Kotz, C. B. Read, N. Balakrishnan: Encyclopedia of Statistical Sciences. Wiley, 2003, S. 208.
↑ Reinhard Bergmann, John Ludbrook, Will P.J.M. Spooren: Different Outcomes of the Wilcoxon–Mann–Whitney Test from Different Statistics Packages. In: The American Statistician. Band 54, Nr. 1, 2000, S. 72–77, doi:10.1080/00031305.2000.10474513, JSTOR:2685616 (englisch).
↑ scipy.stats.mannwhitneyu. In: SciPy v0.16.0 Reference Guide. The Scipy community, 24. Juli 2015, abgerufen am 11. September 2015: „scipy.stats.mannwhitneyu(x, y, use_continuity=True): Computes the Mann–Whitney rank test on samples x and y.“
↑ org.apache.commons.math3.stat.inference.MannWhitneyUTest. Abgerufen im 1. Januar 1
↑ ^a ^b Julian D. Karch: Psychologists Should Use Brunner-Munzel’s Instead of Mann-Whitney’s U Test as the Default Nonparametric Procedure. In: Advances in Methods and Practices in Psychological Science. Band 4, Nr. 2, 1. April 2021, ISSN 2515-2459, S. 2515245921999602, doi:10.1177/2515245921999602.
↑ Arne C. Bathke, Frank Konietschke: Rank and Pseudo-Rank Procedures for Independent Observations in Factorial Designs : Using R and SAS. 1st ed. Cham 2018, ISBN 978-3-03002914-2.

[1] Frank Wilcoxon: Individual Comparisons by Ranking Methods. In: Biometrics Bulletin. 1, 1945, S. 80–83, JSTOR:3001968.

[2] Henry Mann, Donald Whitney: On a test of whether one of two random variables is stochastically larger than the other. In: Annals of mathematical Statistics. 18, 1947, S. 50–60, doi:10.1214/aoms/1177730491.

[3] William H. Kruskal: Historical Notes on the Wilcoxon Unpaired Two-Sample Test. In: Journal of the American Statistical Association. Band 52, 1957, S. 356–360, JSTOR:2280906.

[4] Michael P. Fay, Michael A. Proschan: Wilcoxon-Mann-Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules. In: Statistics surveys. Band 4, 2010, ISSN 1935-7516, S. 1–39, doi:10.1214/09-SS051, PMID 20414472, PMC 2857732 (freier Volltext).

[5] George W. Divine, H. James Norton, Anna E. Barón, Elizabeth Juarez-Colunga: The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians. In: The American Statistician. Band 72, Nr. 3, 3. Juli 2018, ISSN 0003-1305, S. 278–286, doi:10.1080/00031305.2017.1305291.

[6] A. Löffler: Über eine Partition der natürlichen Zahlen und ihre Anwendung beim U-Test. In: Wiss. Z. Univ. Halle. Band XXXII, Heft 5 1983, S. 87–89. (German_version, English_translation)

[7] B. Rönz, H. G. Strohe (Hrsg.): Lexikon Statistik. Gabler, Wiesbaden 1994, ISBN 3-409-19952-7.

[8] H. Rinne: Taschenbuch der Statistik. 3. Auflage. Verlag Harri Deutsch, 2003, S. 534.

[9] S. Kotz, C. B. Read, N. Balakrishnan: Encyclopedia of Statistical Sciences. Wiley, 2003, S. 208.

[10] Reinhard Bergmann, John Ludbrook, Will P.J.M. Spooren: Different Outcomes of the Wilcoxon–Mann–Whitney Test from Different Statistics Packages. In: The American Statistician. Band 54, Nr. 1, 2000, S. 72–77, doi:10.1080/00031305.2000.10474513, JSTOR:2685616 (englisch).

[11] scipy.stats.mannwhitneyu. In: SciPy v0.16.0 Reference Guide. The Scipy community, 24. Juli 2015, abgerufen am 11. September 2015: „scipy.stats.mannwhitneyu(x, y, use_continuity=True): Computes the Mann–Whitney rank test on samples x and y.“

[12] org.apache.commons.math3.stat.inference.MannWhitneyUTest. Abgerufen im 1. Januar 1

[:0-13] Julian D. Karch: Psychologists Should Use Brunner-Munzel’s Instead of Mann-Whitney’s U Test as the Default Nonparametric Procedure. In: Advances in Methods and Practices in Psychological Science. Band 4, Nr. 2, 1. April 2021, ISSN 2515-2459, S. 2515245921999602, doi:10.1177/2515245921999602.

[14] Arne C. Bathke, Frank Konietschke: Rank and Pseudo-Rank Procedures for Independent Observations in Factorial Designs : Using R and SAS. 1st ed. Cham 2018, ISBN 978-3-03002914-2.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]