True or False

Der p-Wert und die False Discovery Rate

Jakob Gepp Blog, Statistik

Zum Überprüfen von Hypothesen werden meist p-Werte verwendet. Doch häufig werden diese falsch interpretiert oder gar so lange bearbeitet, bis etwas „signifikant“ ist. Letzteres wird auch p-Hacking genannt. Die Frage ist nun, was genau sagen p-Werte aus?

Definition

Der p-Wert ist die Wahrscheinlichkeit, dass ein beobachtetes Ergebnis, unter der Annahme die Nullhypothese ist korrekt, mindestens so extrem ausfällt wie es beobachtet wurde.
Hierbei ist der wichtige Punkt: „unter der Annahme die Nullhypothese ist korrekt“. Die Nullhypothese bedeutet in der Regel, dass es keinen Einfluss gibt bzw. dass die Parameter gleich Null sind. Mit anderen Worten: Hier steckt der Vergleich zum reinen Zufall drin. Da die Definition nicht sofort verständlich ist, veranschaulichen wir sie an einem Beispiel.

Beispiel

Angenommen wir wollen die Wirksamkeit eines Schlafmittels testen. Hierzu haben wir die Schlafdauer von Probanden vor und nach der Nutzung des Medikamentes erfasst. Wir gehen davon aus, dass die Schlafdauer annähernd normalverteilt ist, die Probanden voneinander unabhängig sind und Varianzhomogenität vorliegt. Unsere Nullhypothese lautet H_0: \mu \leq 0, sprich wir wollen testen, ob das Medikament einen positiven Einfluss hat. Wir überprüfen die Differenz der Vorher-Nachher-Messungen der Probanden mit einem einseitigen t-Test auf einem Signifikanzniveau von \alpha = 0,05.

Auswertung

Die in der Abbildung gezeigte Dichte, ist die der Teststatistik unter H_0. Der blau markierte Bereich ist das von uns gewählte Signifikanzniveau und die gestrichelte Linie zeigt den errechneten p-Wert. Wie interpretieren wir nun dieses Ergebnis?

Dichte mit Signifikanzniveau und p-Wert

Interpretation

Mit Hilfe des t-Tests konnten wir auf einem Signifikanzniveau von \alpha = 0,05 zeigen, dass der Effekt des Schlafmittels größer als Null ist. Wie groß bzw. stark der Effekt ist, wissen wir noch nicht. Wir können ebenfalls nichts über das Risiko aussagen, dass wir ein falsch positives Ergebnis haben – auch „False Discovery Rate“ genannt. Dies ist aber häufig das, was man denkt, durch \alpha festgelegt zu haben.

False Discovery Rate

Die False Discovery Rate gibt den Anteil der Tests wieder, die ein falsch positives Ergebnis liefern. Sie hängt neben \alpha noch von der Teststärke und dem wahren Effekt ab, die jedoch Parameter sind, die man nicht direkt beeinflussen kann.

  • Das Signifikanzniveau ist die Wahrscheinlichkeit \alpha sich für H_1 zu entscheiden, wenn H_0 korrekt ist.
  • Die Teststärke ist die Wahrscheinlichkeit 1-\beta sich für H_1 zu entscheiden, wenn H_1 korrekt ist.
  • Mit dem wahren Effekt ist in unserem Beispiel der Anteil gemeint, bei dem wir eine Stichprobe gezogen haben, in der eine positive Differenz der Vorher-Nachher-Messungen auf Grund des Schlafmittels und nicht nur zufällig vorliegt.

Zwar kann man die Teststärke erhöhen, indem man z.B. den Stichprobenumfang vergrößert, aber sie hängt auch davon ab, wie groß der Effekt ist. Das heißt, einen großen Unterschied in der Schlafdauer wird man besser zeigen können als einen kleinen. Wie groß der wahre Effekt ist bzw. wie oft er vorkommt, weiß man leider nicht.

Berechnung der False Discovery Rate

Wenn man annimmt, dass der wahre Effekt 0,1 beträgt und eine Teststärke von 0,8 vorliegt, dann ergibt sich eine False Discovery Rate von 36%, die deutlich über dem Signifikanzniveau von 5% liegt. Die folgende Grafik zeigt, wie sich die False Discovery Rate bei verschiedenen Annahmen ändert.

Simulationsergebnisse der False Discovery Rate

Hat man zum Beispiel einen p-Wert von p = 0,05 beobachtet und liegt eine Teststärke von 1-\beta = 0,8 vor, dann würde man schon einen wahren Effekt von über 0,5 benötigen, um eine False Discovery Rate von 0,05 zu erreichen.

Die rote Line zeigt, unter welchen Bedingungen eine False Discovery Rate von 5% gilt. Da sich hierbei der wahre Effekt nicht steuern lässt, kann man nur bei sehr kleinen p-Werten (p \leq 0,001) relativ sicher sein, dass es sich um ein reproduzierbares Ergebnis handelt und nicht einfach nur um puren Zufall.

Das häufig verwendete Signifikanzniveau von 5% könnte einen daher dazu verleiten, einen Effekt zu unterstellen, wo in Wirklichkeit keiner ist.

Über den Autor
Jakob Gepp

Jakob Gepp

Numbers were always my passion and as a data scientist and statistician at STATWORX I can fullfill my nerdy needs. Also I am responsable for our blog. So if you have any questions or suggestions, just send me an email!