data visualisation

Korrelation und Kausalität

Jakob Gepp Blog, Statistik

Ein bekanntes Beispiel aus der Statistik: Je mehr Leute in Kentucky heiraten, desto mehr Menschen ertrinken nachdem sie aus einem Fischerboot gefallen sind. Mit einem Korrelationskoeffizienten von r = 0.952 ist dieser Zusammenhang, statistisch gesehen, fast perfekt. Aber sollte man deswegen in Kentucky lieber auf das Heiraten verzichten? Oder ist etwa der Pro-Kopf-Verbrauch von Käse verantwortlich für ein unglückliches Ableben durch Verheddern im Bettlaken? Immerhin kann auch hier eine starke Korrelation beobachtet werden (r = 0.947).

Für beide Fälle lautet die Antwort wohl eher „nein“. Stattdessen sollen diese Beispiele klarmachen, dass eine Korrelation noch lange keine Kausalität nachweist. Wozu dienen also Korrelationsanalysen und worauf muss man bei deren Interpretation achten?

Korrelative Zusammenhänge

Eine Analyse der Korrelation zweier Variablen ist immer dann interessant, wenn wir wissen wollen, ob ein statistischer Zusammenhang zwischen diesen Variablen besteht und in welche Richtung dieser verläuft. Dabei unterscheiden wir vier grundlegende Szenarien, die das folgende Beispiel verdeutlichen soll: “Gibt es einen Zusammenhang zwischen der Anzahl an wöchentlichen Arbeitsstunden und der Häufigkeit an Restaurantbesuchen einer Person?”

  • Kein Zusammenhang: Durch Kenntnis der wöchentlichen Arbeitsstunden kann keinerlei Aussage über die Häufigkeit an Restaurantbesuchen gemacht werden.
  • Positiver Zusammenhang: Je mehr eine Person pro Woche arbeitet, desto häufiger besucht sie ein Restaurant.
  • Negativer Zusammenhang: Je mehr eine Person pro Woche arbeitet, desto seltener besucht sie ein Restaurant.
  • Nichtlinearer Zusammenhang: Sowohl eine unter- als auch überdurchschnittliche Anzahl an wöchentlichen Arbeitsstunden erhöht die Häufigkeit von Restaurantbesuchen.

Ob der beobachtete Zusammenhang auch eine kausale Verknüpfung hat, welche Variable Ursache und welche Wirkung ist – diese Fragen bleiben von der Korrelationsanalyse unbeantwortet. Nehmen wir an, wir würden für unser Beispiel einen positiven Zusammenhang beobachten. Dann könnte eine Erklärung lauten, dass Personen die länger arbeiten, weniger Zeit zum Kochen haben und deshalb häufiger auf Restaurants ausweichen. Alternativ denkbar wäre auch, dass Personen die gerne essen gehen mehr arbeiten müssen, um sich ihre häufigen Restaurantbesuche leisten zu können. Auch ein rein zufälliges Entstehen der Korrelation ist nicht auszuschließen, wie die zwei Eingangsbeispiele klarmachen sollten.

Keine Kausalität in Korrelation

Wir wissen also nicht, ob ein kausaler, ursächlicher Zusammenhang vorliegt, was genau Ursache und was Wirkung ist. Trotzdem kann es natürlich wünschenswert sein durch (gründlich recherchierte) inhaltliche Interpretation aus einem korrelativen Zusammenhang eine Kausalität abzuleiten. Ganz wichtig ist es aber sich bewusst zu machen, dass diese Interpretationen, so schlüssig sie erscheinen mögen, nie von der Korrelation statistisch belegt sind.

Kausalität nachweisen

Tatsächlich lässt sich ein kausaler Zusammenhang nie mit statistischen Methoden vollständig nachweisen (wobei es hier in der Statistik neue Stoßrichtungen gibt, z.B. zum Thema Causal Inference). Die beste Approximation erhalten wir durch ein kontrolliertes Experiment, d.h. durch Manipulation der unabhängigen Variable X (angenommen als Ursache, z.B. wöchentliche Arbeitsstunden) bei gleichzeitiger Beobachtung der abhängigen Variable Y (angenommen als Wirkung, z.B. Anzahl Restaurantbesuche). Verändert sich nun Y infolge der Manipulation von X, kann, zumindest statistisch von Zusammenhang der beiden Faktoren ausgegangen werden.

Korrelationskoeffizienten

Zur Berechnung von Korrelationen stehen dem Wissenschaftler verschiedene Korrelationskoeffizienten zur Verfügung. Diese werden, je nach Skalenniveau der Daten und vermutetem Zusammenhang, ausgewählt. Die beiden wichtigsten Korrelationskoeffizienten sind der Pearson-Korrelationskoeffizient sowie der Spearman-Korrelationskoeffizient. Ersterer wird verwendet, wenn beide zu korrelierenden Variablen metrisch bzw. intervallskaliert und normalverteilt sind. Die Spearman Korrelation hingegen wird basierend auf Rangdaten berechnet und ist auch für ordinale und nicht-normalverteilte Daten geeignet. Beide Koeffizienten sind im Intervall zwischen r = -1 und r = 1 definiert, wobei r = -1 einen perfekten negativen und r = 1 einen perfekten positiven Zusammenhang beschreiben.

Praktischer Einsatz von Korrelationen

In der statistischen Praxis werden Korrelationen häufig im Rahmen der explorativen Datenanalyse verwendet, d.h. als erste Indikation für etwaige statistische Effekte, die mit komplexeren Methoden, wie z.B. der Regressionsanalyse, weiter untersucht werden. Dies wird auch vor dem Hintergrund klarer, dass bei einfachen Korrelationsanalysen keine weiteren Variablen zur Kontrolle der Wirkung verwendet werden können. Man geht also davon aus, dass lediglich eine Wirkung von X auf Y vorliegt und keine anderen Faktoren Y beeinflussen. Dies ist für die meisten Experimente eine extrem unplausible Annahme.

Zusammenfassung

Wichtig ist zu verstehen, dass mit statistischen Korrelationen keine Aussagen über kausale Wirkzusammenhänge getroffen werden können. Alle statistischen Modelle sind lediglich einfache Abstraktionen der Wirklichkeit und werden in den meisten Fällen nie den tatsächlichen Kausalzusammenhang zwischen Variablen abbilden können. Aber, um es mit den Worten des berühmten Statistikers George Box zu sagen: “All models are wrong…but some of them are useful.”. Falls du Unterstützung bei der Auswahl oder Berechnung von Korrelationen benötigst, hilft dir unser Statistik Team gerne weiter.


Causal Inference: http://egap.org/methods-guides/10-things-you-need-know-about-causal-inference
All models are wrong: https://en.wikipedia.org/wiki/All_models_are_wrong

Über den Autor
Jakob Gepp

Jakob Gepp

Numbers were always my passion and as a data scientist and statistician at STATWORX I can fullfill my nerdy needs. Also I am responsable for our blog. So if you have any questions or suggestions, just send me an email!