Herausforderungen der nicht-parametrischen Statistik: der Wilcoxon-Rangsummen-Test

Alexander Niltop Blog, Statistik

Bei der Reise durch das nicht-parametrische Universum begegnet man auch Phänomenen, denen man lieber nicht begegnen möchte: schwarzen Löchern. Diese können zu Beginn sehr klein sein, doch wenn man sie nicht beachtet und versucht, sich (heimlich) an ihnen vorbeizuschleichen, stürzen sie alles ins Chaos. Auch in der Nähe der Welt des Wilcoxon-Rangsummen-Tests gibt es eines davon.

Die Welt des Wilcoxon-Rangsummen-Tests wurde bereits in einem früheren Blogbeitrag beschrieben (Hier geht es zu diesem Beitrag). Prinzipiell überprüft der Test, ob sich die Mediane von zwei unabhängigen Gruppen signifikant voneinander unterscheiden. Er macht dabei weniger Annahmen über die Daten als der t-Test für unabhängige Stichproben (Was ist ein t-Test? Hier klicken!), aber er ist nicht frei davon. Die erste von insgesamt zwei Annahmen ist, dass die abhängige Variable stetig sein muss. Die zweite ist, dass die Verteilung der Daten in beiden Gruppen zwar von einer Normalverteilung abweichen darf, aber sie in beiden Gruppen gleich sein muss. Diesem Aspekt wird häufig wenig Beachtung geschenkt, was jedoch dazu führen kann, dass man nicht auf der statistisch verlässlichen Welt des Wilcoxon-Rangsummen-Tests landet, sondern im Nirgendwo eines schwarzen Lochs. Die Interpretation des signifikanten Tests ist dann nichts weiter als Chaos.

Von Raumschiffen und Verteilungen

Um dies zu veranschaulichen, schauen wir uns zuerst die Verteilungen im früheren Blogbeitrag an. Wie waren dort die Verteilungen in beiden Gruppen?

Histogramm nach Laendern

Abbildung 1 zeigt, dass sie identisch waren und sich die Gruppen nur in Bezug auf die Mediane (rote Linie) unterschieden haben. Der signifikante Wilcoxon-Rangsummen-Test (p < 0,001) spiegelte bei diesem Ergebnis daher ausschließlich Unterschiede der Mediane beider Gruppen wieder. Häufig existieren jedoch nicht nur Unterschiede beim Median, sondern auch bei der Verteilung der Daten.(1) Was dann? Um diese Frage zu beantworten, können wir nur eines tun: Wir setzen uns wie im früheren Blogbeitrag in unser Raumschiff und erkunden das nicht-parametrische Universum. Dieses Mal müssen wir jedoch besonders vorsichtig sein, denn sich einem schwarzen Loch zu nähern, ist riskant. Da wir aber wissen wollen, wieso die Verteilung von Daten für den Wilcoxon-Rangsummen-Test von Bedeutung ist, bleibt uns nichts anderes übrig. Wir starten den Antrieb und nähern uns dem schwarzen Loch. Beim Annähern erkennen wir plötzlich hunderte andere Raumschiffe, die zu unvorsichtig waren und immer mehr hineingezogen werden. Wir müssen handeln! Als wir gerade sämtliche Rettungskräfte losschicken wollen, erkennen wir, dass alle Raumschiffe extrem alt und ohne Rettungskapseln sind. Scheinbar ist lange niemand mehr hier gewesen und die Crews der Schiffe konnten sich mit den Rettungskapseln in Sicherheit bringen. Doch während wir mit den Vorbereitungen der Rettungsaktionen beschäftigt waren, sind wir selbst unvorsichtig gewesen und werden jetzt in das schwarze Loch hineingezogen! Da der Antrieb es alleine nicht schafft, uns aus dem Sog zu befreien, benötigen wir Hilfe. Bokaj, der beste Ingenieur im nicht-parametrischen Universum und glücklicherweise Leiter unseres Maschinenraums, hat eine Idee! Wir demontieren von einem der anderen Schiffe den Antrieb und verstärken damit unseren. Doch welchen sollen wir auswählen? Uns kann nur ein sehr starker Antrieb retten und es bleibt uns nichts anderes übrig als anzunehmen, dass je weiter ein Raumschiff noch vom Zentrum des schwarzen Lochs entfernt ist, desto stärker ist der Antrieb. Daher erfassen wir mit unseren Bordsensoren, wie weit jedes der anderen Raumschiffe noch vom Zentrum entfernt ist. Gesagt, getan, doch der Bordcomputer zählt insgesamt circa 2000 Raumschiffe. Viel zu viele, um schnell die richtige Entscheidung zu treffen! Um die Auswahl einzugrenzen, lassen wir die Schiffe von unserem Bordcomputer in Handels- und Kriegsschiffe einteilen und mit Hilfe des Wilcoxon-Rangsummen-Tests überprüfen, ob sich die Entfernung (und somit die Stärke des Antriebs) im Mittel zwischen den zwei Schiffstypen unterscheidet. Der Test ist signifikant (p = 0,02), sehr gut! Da der Median mit 0,65 bei den Kriegsschiffen größer ist als mit 0,61 bei den Handelsschiffen, müsste die Wahl auf die Kriegsschiffe fallen. Jedenfalls statistisch betrachtet. Doch die Mediane unterscheiden sich kaum und würde diese Entscheidung wirklich die Wahrscheinlichkeit unseres Überlebens erhöhen? Wir bezweifeln dies sehr und betrachten stattdessen die Verteilung der Daten, in der Hoffnung, dass dort noch wichtige Informationen zu finden sind (siehe Abbildung 2).

Histogramm nach Schiffen

Die Verteilung zeigt uns, dass egal ob Handels- oder Kriegsschiff, die meisten sind sehr nah am Zentrum des schwarzen Lochs und die Mediane unterscheiden sich daher kaum. Bei genauerem Hinsehen wird jedoch deutlich, dass es bei den Kriegsschiffen einige gibt, die noch über 2,4 Einheiten entfernt sind. Gut für uns, denn nur ein starker Antrieb kann uns vor dem drohenden Tod retten und offenbar gibt es einige Kriegsschiffe, die einen wesentlich stärkeren Antrieb haben als die Handelsschiffe. Wir schicken daher Bokaj und seine Crew zu einem dem Kriegsschiff über 3,6 Einheiten. Der Antrieb ist noch intakt und kompatibel zu unserem, was für ein Glück! Bokaj hat ihn an unserem Schiff montiert und unser Antrieb ist jetzt stark genug, um uns zu entfernen. Antrieb starten und schnell weg hier!

Und was haben wir daraus gelernt?

Der Wilcoxon-Rangsummen-Test ist nützlich, um Entscheidungen, die zwei Gruppen betreffen, zu erleichtern. Bei sehr großen Gruppen (wie z.B. vielen Raumschiffen) können sich die Mediane der beiden Gruppen, trotz eines signifikanten Ergebnisses, kaum unterscheiden. Eine Ursache für solch signifikante Ergebnisse sind, neben der großen Stichprobe, auch ungleiche Verteilungen der Daten in beiden Gruppen. Daher sollte immer zusätzlich zum Median, auch die Verteilung der Daten betrachtet und in die Interpretation miteinbezogen werden.

Referenzen

  1. Hart, Anna (2001). Mann-Whitney test is not just a test of medians: differences in spread can be important. BMJ, 323, 391-393.
Über den Autor
Alexander Niltop

Alexander Niltop

I am a statistician at STATWORX and don't just want to understand the fascinating world of statistics but explain it easily, too. I hope, it worked!