Einführung in die nicht-parametrische Statistik: der Wilcoxon-Rangsummen-Test

Alexander Darrall Blog, Statistik

Niederländer lieben Käse, Holzschuhe und am liebsten sitzen sie hinter dem Steuer ihres Wohnwagens! Oder? Will man solche Vorurteile (seriös) untersuchen, muss man dazu Daten erheben. So könnte man die jährliche Fahrzeit im Wohnwagen bei Niederländern und beispielsweise Deutschen erfassen und im Anschluss überprüfen, ob sich beide Nationen im Mittel bei der Fahrzeit unterscheiden. Dafür bietet sich als erstes der t-Test für unabhängige Stichproben an, der testet, ob sich die Mittelwerte beider Gruppen signifikant voneinander unterscheiden. Wendet man diesen Test an, befindet man sich sofort im parametrischen Universum: einem Raum voller Möglichkeiten, aber auch ein Raum voller statistischer Voraussetzungen.

Die bekannteste davon ist sicherlich, dass die abhängige Variable (die Zeit hinter dem Steuer) normalverteilt sein muss. Zudem sollten die Gruppen ungefähr gleich groß und jeweils mindestens 30 Personen vorhanden sein. Ist eine dieser Voraussetzungen nicht erfüllt, ist das Ergebnis des t-Tests nicht mehr verlässlich. In einem solchen Fall ist es Zeit für eine Reise in das nicht-parametrische Universum. Bei dieser Reise entdeckt man schnell die Welt des Wilcoxon-Rangsummen-Tests. Dieser ist die nicht-parametrische Alternative zum t-Test für unabhängige Stichproben und macht weniger strenge Annahmen über die Verteilung der Daten. Insbesondere die Voraussetzung einer Normalverteilung der abhängigen Variable muss nicht erfüllt sein. Was ihn mit dem t-Test allerdings verbindet ist, dass beide Tests überprüfen, ob sich zwei Gruppen im Mittel voneinander unterscheiden. Der Wilcoxon-Rangsummen-Test überprüft jedoch den Median zwischen zwei Gruppen und nicht den Mittelwert.

Lasst die Entdeckungsreise beginnen

Bevor wir die Welt des Wilcoxon-Rangsummen-Tests erkunden, noch ein kurzer Reisehinweis: Sie wurde 1945 von Frank Wilcoxon entdeckt und beschrieben, doch auch Mann und Whitney haben 1947 darüber berichtet. Dadurch ist der Test unter verschiedenen Namen bekannt: Wilcoxon-Rangsummen-Test, Mann-Whitney- oder auch U-Test. Dies ist jedoch kein Grund reisekrank zu werden, denn die Beschreibungen von Wilcoxon (1945) und Mann/Whitney (1947) unterscheiden sich zwar leicht (geringfügig andere Berechnungen), aber die Welt ist immer die Gleiche (gleiches Ergebnis beider Tests). Jetzt aber Rucksack auf und lasst uns die Reise beginnen. Die erste Entdeckung, die wir dabei machen, kommt jedoch unerwartet: Auch Niederländer und Deutsche haben diese Welt bereits entdeckt und erkunden sie mit ihren Wohnwägen. Trotz unseres Erstaunens nutzen wir diesen Umstand sofort, um das Vorurteil über Niederländer und ihren Wohnwagen zu erforschen. Wir konnten letztlich 26 Personen nach ihrer Zeit hinter dem Steuer befragen, haben die Werte notiert und zusätzlich für die Fahrzeiten Rangplätze vergeben, um zu sehen welche Person die meiste und welche die kürzeste Zeit gefahren ist (siehe fiktive Daten in Tabelle). Rang 1 bekommt jene Person mit der kürzesten und Rang 26 jene mit der längsten Fahrzeit und zwar unabhängig davon, aus welchem Land die Person stammt.

NiederlandeDeutschland
Fahrzeit mit dem Wohnwagen [min]RangplatzFahrzeit mit dem Wohnwagen [min]Rangplatz
86031444781
1105325670512
93451555726
94851645222
1072423728213
115852648383
109412452655
965317601510
104372251684
1028321630011
98491859789
101431958888
101572057987

In den Fahrzeiten werden Unterschiede zwischen den Nationen deutlich, aber sind sie auch signifikant? Aufgrund der kleinen Stichprobe in beiden Gruppen kann der t-Test nicht für diese Frage angewendet werden, der Wilcoxon-Rangsummen-Test ist hier passender. Eine perfekte Möglichkeit die Welt dieses Tests kennenzulernen! Der Test macht erstmal genau das Gleiche wie wir: Er ordnet den einzelnen Fahrzeiten der Reihe nach Ränge zu (siehe Tabelle). Im Anschluss werden diese aufsummiert. Aber Achtung: Die Vergabe der Ränge erfolgte ohne Gruppenzugehörigkeit, die Aufsummierung erfolgt getrennt nach den Nationen. Dadurch ergibt sich bei den Niederländern eine Rangsumme von 260 und bei den Deutschen von 91. Bei ungleich großen Gruppen verwendet der

Test die Rangsumme in der kleineren Gruppe und bei gleich großen Gruppen, wie in diesem Fall, die kleinere Rangsumme von 91. Diese wird dann an der Anzahl der Personen in der Gruppe relativiert, da sonst größere Gruppen auch immer größere Rangsummen aufweisen würden. Durch die Relativierung ergibt sich die Teststatistik W, für die der dazugehörige p-Wert wie folgt berechnet werden muss. Entweder durch eine exakte Berechnung des p-Werts mit Hilfe einer Simulation oder indem die Teststatistik W durch ihren Standardfehler geteilt wird. Da in den Daten jeder Wert nur einmal vorkommt und die Stichprobe insgesamt kleiner als 40 ist, muss die exakte Methode angewendet werden. Der p-Wert für unsere Daten ist kleiner als 0,001 und das Ergebnis daher signifikant. Man kann also davon ausgehen, dass sich beide Nationen nicht nur in unserer Stichprobe, sondern auch in der gesamten Population bei der mittleren Fahrzeit im Wohnwagen unterscheiden.

Wieso die Welt des Wilcoxon-Rangsummen-Test ist, wie sie ist

An dieser Stelle ist unsere Reise fast schon beendet, lediglich eine Frage drängt sich noch auf: Wieso kann der Wilcoxon-Rangsummen-Test mit einer Rangsumme überprüfen, ob sich die Mediane zweier Gruppen voneinander unterscheiden? Ganz einfach: weil sich unterschiedliche Mediane der beiden Gruppen auch in unterschiedlichen Rangsummen widerspiegeln. In den von uns erhobenen Daten zeigt sich dies besonders deutlich. Der Median bei den Niederländern ist 10157 und bei den Deutschen 5798 Minuten. Dieser große Unterschied zwischen den Gruppen zeigt sich auch in den Rangsummen: 260 bei den Niederländern und 91 bei den Deutschen. Der Grund dafür, dass sich sowohl Mediane als auch Rangsummen zwischen den beiden Gruppen stark unterscheiden ist, dass aufgrund der unterschiedlichen Mediane alle Fahrzeiten der Deutschen geringer sind als jene der Niederländer. Dadurch bekommen die Deutschen nur die niedrigen und die Niederländer nur die hohen Ränge, was letztlich zu den unterschiedlichen Rangsummen führt. Dadurch kann der Test indirekt untersuchen, ob sich die Mediane zweier unabhängiger Gruppen signifikant voneinander unterscheiden.

Referenzen:

  • Mann, H. B. & Whitney, D. R. (1947). On a test of whether one of two random variables is stochastically larger than the other. Annals of Mathematical Statistics, 18, 50-60.
  • Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.
Über den Autor
Alexander Darrall

Alexander Darrall

I am statistician at STATWORX and don't just want to understand the fascinating world of statistics but explain it easily, too. I hope, it worked!