Einführung in die nicht-parametrische Statistik: der Wilcoxon-Rangsummen-Test

Alexander Niltop Blog, Statistik

Niederländer lieben Käse, Holzschuhe und am liebsten sitzen sie hinter dem Steuer ihres Wohnwagens! Oder? Will man solche Vorurteile (seriös) untersuchen, muss man dazu Daten erheben. So könnte man die jährliche Fahrzeit im Wohnwagen bei Niederländern und beispielsweise Deutschen erfassen und im Anschluss überprüfen, ob sich beide Nationen im Mittel bei der Fahrzeit unterscheiden. Dafür bietet sich als erstes der t-Test für unabhängige Stichproben an, der testet, ob sich die Mittelwerte beider Gruppen signifikant voneinander unterscheiden. Wendet man diesen Test an, befindet man sich sofort im parametrischen Universum: einem Raum voller Möglichkeiten, aber auch ein Raum voller statistischer Voraussetzungen.

Die bekannteste davon ist sicherlich, dass die abhängige Variable (die Zeit hinter dem Steuer) normalverteilt sein muss. Zudem sollten die Gruppen ungefähr gleich groß und jeweils mindestens 30 Personen vorhanden sein. Ist eine dieser Voraussetzungen nicht erfüllt, ist das Ergebnis des t-Tests nicht mehr verlässlich. In einem solchen Fall ist es Zeit für eine Reise in das nicht-parametrische Universum. Bei dieser Reise entdeckt man schnell die Welt des Wilcoxon-Rangsummen-Tests. Dieser ist die nicht-parametrische Alternative zum t-Test für unabhängige Stichproben und macht weniger strenge Annahmen über die Verteilung der Daten. Insbesondere die Voraussetzung einer Normalverteilung der abhängigen Variable muss nicht erfüllt sein. Was ihn mit dem t-Test allerdings verbindet ist, dass beide Tests überprüfen, ob sich zwei Gruppen im Mittel voneinander unterscheiden. Der Wilcoxon-Rangsummen-Test überprüft jedoch den Median zwischen zwei Gruppen und nicht den Mittelwert.

Lasst die Entdeckungsreise beginnen

Bevor wir die Welt des Wilcoxon-Rangsummen-Tests erkunden, noch ein kurzer Reisehinweis: Sie wurde 1945 von Frank Wilcoxon entdeckt und beschrieben, doch auch Mann und Whitney haben 1947 darüber berichtet. Dadurch ist der Test unter verschiedenen Namen bekannt: Wilcoxon-Rangsummen-Test, Mann-Whitney- oder auch U-Test. Dies ist jedoch kein Grund reisekrank zu werden, denn die Beschreibungen von Wilcoxon (1945) und Mann/Whitney (1947) unterscheiden sich zwar leicht (geringfügig andere Berechnungen), aber die Welt ist immer die Gleiche (gleiches Ergebnis beider Tests). Jetzt aber Rucksack auf und lasst uns die Reise beginnen. Die erste Entdeckung, die wir dabei machen, kommt jedoch unerwartet: Auch Niederländer und Deutsche haben diese Welt bereits entdeckt und erkunden sie mit ihren Wohnwägen. Trotz unseres Erstaunens nutzen wir diesen Umstand sofort, um das Vorurteil über Niederländer und ihren Wohnwagen zu erforschen. Wir konnten letztlich 26 Personen nach ihrer Zeit hinter dem Steuer befragen, haben die Werte notiert und zusätzlich für die Fahrzeiten Rangplätze vergeben, um zu sehen welche Person die meiste und welche die kürzeste Zeit gefahren ist (siehe fiktive Daten in Tabelle). Rang 1 bekommt jene Person mit der kürzesten und Rang 26 jene mit der längsten Fahrzeit und zwar unabhängig davon, aus welchem Land die Person stammt.

Niederlande Deutschland
Fahrzeit mit dem Wohnwagen [min] Rangplatz Fahrzeit mit dem Wohnwagen [min] Rangplatz
8603 14 4478 1
11053 25 6705 12
9345 15 5572 6
9485 16 4522 2
10724 23 7282 13
11585 26 4838 3
10941 24 5265 5
9653 17 6015 10
10437 22 5168 4
10283 21 6300 11
9849 18 5978 9
10143 19 5888 8
10157 20 5798 7

In den Fahrzeiten werden Unterschiede zwischen den Nationen deutlich, aber sind sie auch signifikant? Aufgrund der kleinen Stichprobe in beiden Gruppen kann der t-Test nicht für diese Frage angewendet werden, der Wilcoxon-Rangsummen-Test ist hier passender. Eine perfekte Möglichkeit die Welt dieses Tests kennenzulernen! Der Test macht erstmal genau das Gleiche wie wir: Er ordnet den einzelnen Fahrzeiten der Reihe nach Ränge zu (siehe Tabelle). Im Anschluss werden diese aufsummiert. Aber Achtung: Die Vergabe der Ränge erfolgte ohne Gruppenzugehörigkeit, die Aufsummierung erfolgt getrennt nach den Nationen. Dadurch ergibt sich bei den Niederländern eine Rangsumme von 260 und bei den Deutschen von 91. Bei ungleich großen Gruppen verwendet der

Test die Rangsumme in der kleineren Gruppe und bei gleich großen Gruppen, wie in diesem Fall, die kleinere Rangsumme von 91. Diese wird dann an der Anzahl der Personen in der Gruppe relativiert, da sonst größere Gruppen auch immer größere Rangsummen aufweisen würden. Durch die Relativierung ergibt sich die Teststatistik W, für die der dazugehörige p-Wert wie folgt berechnet werden muss. Entweder durch eine exakte Berechnung des p-Werts mit Hilfe einer Simulation oder indem die Teststatistik W durch ihren Standardfehler geteilt wird. Da in den Daten jeder Wert nur einmal vorkommt und die Stichprobe insgesamt kleiner als 40 ist, muss die exakte Methode angewendet werden. Der p-Wert für unsere Daten ist kleiner als 0,001 und das Ergebnis daher signifikant. Man kann also davon ausgehen, dass sich beide Nationen nicht nur in unserer Stichprobe, sondern auch in der gesamten Population bei der mittleren Fahrzeit im Wohnwagen unterscheiden.

Wieso die Welt des Wilcoxon-Rangsummen-Test ist, wie sie ist

An dieser Stelle ist unsere Reise fast schon beendet, lediglich eine Frage drängt sich noch auf: Wieso kann der Wilcoxon-Rangsummen-Test mit einer Rangsumme überprüfen, ob sich die Mediane zweier Gruppen voneinander unterscheiden? Ganz einfach: weil sich unterschiedliche Mediane der beiden Gruppen auch in unterschiedlichen Rangsummen widerspiegeln. In den von uns erhobenen Daten zeigt sich dies besonders deutlich. Der Median bei den Niederländern ist 10157 und bei den Deutschen 5798 Minuten. Dieser große Unterschied zwischen den Gruppen zeigt sich auch in den Rangsummen: 260 bei den Niederländern und 91 bei den Deutschen. Der Grund dafür, dass sich sowohl Mediane als auch Rangsummen zwischen den beiden Gruppen stark unterscheiden ist, dass aufgrund der unterschiedlichen Mediane alle Fahrzeiten der Deutschen geringer sind als jene der Niederländer. Dadurch bekommen die Deutschen nur die niedrigen und die Niederländer nur die hohen Ränge, was letztlich zu den unterschiedlichen Rangsummen führt. Dadurch kann der Test indirekt untersuchen, ob sich die Mediane zweier unabhängiger Gruppen signifikant voneinander unterscheiden.

Referenzen:

  • Mann, H. B. & Whitney, D. R. (1947). On a test of whether one of two random variables is stochastically larger than the other. Annals of Mathematical Statistics, 18, 50-60.
  • Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.
Über den Autor
Alexander Niltop

Alexander Niltop

I am a statistician at STATWORX and don't just want to understand the fascinating world of statistics but explain it easily, too. I hope, it worked!