statistics word cloud

Einführung in die nicht-parametrische Statistik: Der Wilcoxon-Vorzeichen-Test

Alexander Niltop Blog, Statistik

Obwohl wir beim letzten Mal nur um Haaresbreite dem Sog des schwarzen Lochs entkommen sind, welches sich in der Nähe der Welt des Wilcoxon-Rangsummen-Tests befindet (Die ganze Geschichte gibt es hier!), lassen wir uns nicht einschüchtern und setzen unsere Entdeckungsreise durch das nicht-parametrische Universum fort.

Den nächsten Planeten, den wir dabei erkunden wollen, könnte man auf den ersten Blick mit der Welt des Wilcoxon-Rangsummen-Tests verwechseln (Lieber daran interessiert? Dann klicke hier.). Beide Welten haben eine ähnliche Flora und Fauna, doch schaut man genau hin, gibt es kleine, aber bedeutende Unterschiede. Acissej, unsere Botanikerin an Bord und im ganzen Universum von den großfüßigen Blaustirnblatthühnchen gefürchtet, kennt sich in diesem Bereich bestens aus. Sie führt daher unsere Expedition zur Erforschung der Welt des Wilcoxon-Vorzeichen-Tests an.

Zwei Welten – Gemeinsamkeiten und Unterschiede

Bei der Erkundung wird als erstes eine Gemeinsamkeit beider Welten deutlich: Der Wilcoxon-Vorzeichen- und der Wilcoxon-Rangsummen-Test sind jeweils die nicht-parametrische Alternative für den t-Test. Ersterer ist das Pendant zum t-Test für abhängige und letzterer zum t-Test für unabhängige Stichproben (Was ist ein t-Test? Hier erfährst du es.). Nicht-parametrisch bedeutet, dass beide Tests weniger strenge Annahmen über die Verteilung der abhängigen Variable machen. Zusätzlich teilen beide die Eigenschaft, dass sie die Mediane von zwei Gruppen auf signifikante Unterschiede testen. Acissej ergänzt noch scherzend, dass sich der Erfinder beider Tests – Frank Wilcoxon – auch in beiden Bezeichnungen verewigt hat.

Bei den vielen Gemeinsamkeiten beider Welten gibt es jedoch einen großen Unterschied zwischen ihnen: Die Situation, in der die Anwendung des Tests angemessen ist. Der Wilcoxon-Vorzeichen-Test wird ausschließlich bei abhängigen Stichproben angewandt. Doch was genau bedeutet Abhängigkeit überhaupt? Häufig bedeutet es, dass bei verschiedenen Personen ein bestimmtes Merkmal zwei Mal gemessen wurde. In diesem Fall spricht man von Messwiederholung. Abhängigkeit kann aber auch bedeuten, dass man die Werte von zwei Person durch eine Gemeinsamkeit in Verbindung bringen kann. Da fällt Acissej sofort ein gutes Beispiel ein: Wenn sich zwei Mitglieder unserer Crew eine Kajüte teilen müssen und der eine schlechte Laune hat, weißt du sofort, wie es dem anderen geht. Ob Sie wollen oder nicht, Ihre Laune ist voneinander abhängig! Bei Abhängigkeiten zwischen Messungen gilt jedoch, dass man nur solche berücksichtigen kann, die eine gewisse Systematik aufweisen(1). Beispielsweise kann die Laune eines Crewmitgliedes die Laune aller Mitglieder am Bord beeinflussen. Da es aber nicht (einfach) zu erfassen ist, wer sich mit wem unterhält und sich dadurch beeinflusst, ist diese eine Form von Abhängigkeit, die man statistisch nicht berücksichtigen würde.

Die Tiefen der Welt des Wilcoxon-Vorzeichen-Tests

Acissej hat heute extrem gute Laune und das perfekte Beispiel parat, um zu erklären, wie die Welt des Wilcoxon-Vorzeichen-Tests im Detail beschaffen ist. Dazu kramt sie einen Zettel aus ihrer Tasche, auf den wir folgendes Lesen können:

Pflanzennummer Größe beim Einpflanzen [cm] Größe am nächsten Tag [cm]
1 20,03 21,39
2 20,13 21
3 20,23 21,35
4 20,15 20,75
5 20,46 20,25
6 20,43 20,68
7 20,67 20,53
8 20,35 21,05
9 20,85 20,97
10 20,08 20,62
11 20,5 20,81
12 21,04 20,92
13 20,88 20,95
14 19,94 20,74
15 20,08 20,63

Ihr Beispiel handelt natürlich von Pflanzen. Acissej hat ein kleines Experiment durchgeführt und möchte jetzt wissen, ob es geglückt ist. Sie hat gestern 15 neue Pflanzen in ihrer Kajüte eingepflanzt und gemessen, wie groß diese waren. Zum Einpflanzen hat sie aber nicht herkömmlichen Boden, sondern Kaffeesatz verwendet. Auf diese Idee kam sie als sie vor kurzem auf einer anderen Welt gesehen hat, dass die Einheimischen dort Pflanzen auf den Resten anderer Pflanzen züchten. Da sie als Botanikerin weiß, wie viele Nährstoffe in Kaffee enthalten sind und sie selbst jeden Tag mindestens 10 Tassen trinkt, erschien ihr die Verwendung von Kaffeesatz eine geniale Idee. Heute Morgen hat Sie gleich mal nachgemessen und alles auf dem Zettel notiert. Jetzt möchte sie wissen, ob die Pflanzen im Schnitt gewachsen sind, damit sie sie nicht quält, falls alles eine blöde Idee war.

Da „leider“ nur 15 Pflanzen in ihre Kajüte passen und die Messungen voneinander abhängig sind, empfiehlt sich die Anwendung des Wilcoxon-Vorzeichen-Tests. Dieser bildet zuerst die Differenzen aus beiden Zeitpunkten: Größe beim Einpflanzen – Größe am nächsten Tag (siehe Tabelle 2). Anschließend wird für jede Differenz das Vorzeichen notiert und Ränge vergeben. Bei der Vergabe der Ränge wird das Vorzeichen ignoriert (siehe Tabelle 2).

Pflanzennummer

Differenz Ränge Vorzeichen
1 -1,36 15
2 -0,87 13
3 -1,12 14
4 -0,6 10
5 0,21 5 +
6 -0,25 6
7 0,14 4 +
8 -0,7 11
9 -0,12 3
10 -0,54 8
11 -0,31 7
12 0,12 2 +
13 -0,07 1
14 -0,8 12
15 -0,55 9

Die Ränge werden letztlich zu zwei Rangsummen aufsummiert. Eine Rangsumme für Ränge mit positiven (T+) und eine für Ränge mit negativen Vorzeichen (T-). Um zu testen, ob sich die Mediane in beiden Gruppen unterscheiden, verwendet der Test die Rangsumme der positiven Differenzen T+. Diese ist in unserem Fall 11. Für T+ wird der dazugehörige p-Wert anschließend mit einer der beiden folgenden Methoden berechnet. Entweder, indem die Rangsumme an der Anzahl der Personen in der Gruppe relativiert und durch ihren Standardfehler geteilt wird oder, indem der p-Wert exakt berechnet wird, mit Hilfe einer Simulation. Da in den Daten jeder Wert nur einmal vorkommt und die Stichprobe insgesamt kleiner als 40 ist, muss die exakte Methode angewendet werden. Der exakte p-Wert für die Pflanzengrößen ist 0,003 und das Ergebnis daher signifikant. Man kann also davon ausgehen, dass der Median der Pflanzengröße nach einem Tag (20,81) signifikant größer ist als zum Zeitpunkt des Einpflanzens (20,35). Somit sind nicht nur die Pflanzen von Acissei im Schnitt gewachsen, sondern wir können auch davon ausgehen, dass Kaffeesatz bei weiteren Pflanzen geeignet ist, um als Nährboden zu fungieren. Auf diese Freude holt sich Acissej doch erstmal einen Kaffee!

PS: Durch die Reise im nicht-parametrischen Universum reisekrank geworden? Kein Problem! Wir bei STATWORX lieben es zu reisen und begleiten dich sehr gerne dabei: Antrag auf Reisebegleitung stellen.

Referenzen

  1. Eid, M., Gollwitzer, M. & Schmitt, M. (2015). Statistik und Forschungsmethoden (4. Überarbeitete und erweiterte Auflage). Weinheim: Beltz. S. 368.
  2. Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics, 1, 80-83.
Über den Autor
Alexander Niltop

Alexander Niltop

I am a statistician at STATWORX and don't just want to understand the fascinating world of statistics but explain it easily, too. I hope, it worked!