statistics word cloud

Stolperfalle logistische Regressionskoeffizienten und Odds Ratios

Lea Waniek Blog, Statistik

Logistische Regressionsmodelle, sind mit gängiger Statistiksoftware meist genauso leicht zu schätzen wie lineare Regressionen. Doch die Interpretation solcher Modelle, also der Part der statistischen Analyse der nicht von der Software übernommen wird, birgt eine Tücke: die Bezugsgröße der Regressionskoeffizienten.

Ausgehend von den unabhängigen Merkmalen der Beobachtungen, modellieren logistische Regressionsmodelle die Wahrscheinlichkeit mit der eine bestimmte Ausprägung eines kategorialen abhängigen Merkmals auftritt. Zur Schätzung dieser Wahrscheinlichkeiten ist die Transformation der Regressionsgewichte der unabhängigen Variablen notwendig, so dass logistische Regressionskoeffizienten den Zusammenhang zwischen den Ausprägungen der unabhängigen Variablen und den Logits für die betrachtete Merkmalsausprägung der abhängigen Variablen spiegeln. Parallel zur linearen Regression kann geschlossen werden, dass eine Erhöhung einer gegebenen unabhängigen Variable um eine Einheit, mit der Veränderung des Logits für das Auftreten der betrachteten Merkmalsausprägung der abhängigen Variable um β Einheiten einhergeht. Zwar ist diese Interpretation formal korrekt, offenkundig jedoch wenig aufschlussreich.

Logits, Odds Ratios und Wahrscheinlichkeiten

Es drängt sich die Frage auf, was genau Logits sind. Die Antwort ist augenscheinlich recht einfach: Logits sind logarithmierte Odds Ratios. Wir halten fest: Logit = ln(Odds Ratio).

Aber natürlich stellt sich nun die Frage, was wiederrum Odds Ratios sind. Im Deutschen werden Odds Ratios als Chancenverhätnisse (oder auch Quotenverhältnisse) bezeichnet. Tatsächlich sind Odds Ratios nicht mehr als simple Verhältnisse von Chancen (beziehungsweise Quoten oder eben Odds). Im gegebenen Kontext bezeichnen Odds Ratios das Verhältnis der Chancen für das Auftreten der betrachteten Merkmalsausprägung der abhängigen Variable, zwischen zwei Gruppen welche sich in der Ausprägungen eines unabhängigen Merkmals unterscheiden. Wir halten fest: Odds Ratio = Chance für Merkmalsausprägung in Gruppe 1 : Chance für Merkmalsausprägung in Gruppe 2.

Natürlich wird damit die Frage aufgeworfen, was genau Chancen sind. Chancen sind das jeweilige Verhältnis der Wahrscheinlichkeit für das Auftreten einer Merkmalsausprägung relativ zu der Wahrscheinlichkeit für das Nicht-Auftreten der Merkmalsausprägung innerhalb einer, zum Beispiel durch ein unabhängiges Merkmal definierten, Gruppe. Wir halten fest: Chance für Merkmalsausprägung = Wahrscheinlichkeit von Merkmalsausprägung : Gegenwahrscheinlichkeit von Merkmalsausprägung.

Die Wahrscheinlichkeit für eine Merkmalsausprägung entspricht dabei dem Anteil von Beobachtungseinheiten einer Gruppe, welche die jeweilige Ausprägung aufweisen. Wir halten fest: Wahrscheinlichkeit von Merkmalsausprägung = Anteil der Gruppenmitglieder mit Merkmalsausprägung.

Ein Beispiel: Nerds, Normalos und Star Wars

Zur Veranschaulichung werden nachstehend Logit und Odds Ratio dafür ein Star-Wars-Fan zu sein, für eine Gruppe von 10 „Statistik-Nerds“ relativ zu einer Gruppe von 10 „Normalos“ berechnet.

Berechnung von Hand

7 der 10 Nerds sind Star Wars Fans 4 der 10 Normalos sind Star Wars Fans. Daraus folgt:


P_{ Nerds }\left( Fan \right)=\frac{ 7 }{10 }=0,7
Odds_{Nerds }\left( Fan \right)=\frac{ P_{ Nerds }\left( Fan \right) }{ P_{ Nerds }\left( kein Fan \right) }=\frac{ 0,7 }{ 1-0,7} = 2,\bar{3}
P_{ Normalos }\left( Fan \right)=\frac{ 4 }{10 }=0,4
Odds_{Normalos }\left( Fan \right)=\frac{ P_{Normalos }\left( Fan \right) }{ P_{ Normalos }\left( kein Fan \right) }=\frac{ 0,4 }{ 1-0,4} = 0,\bar{6}
Odds Ratio_{ Nerds : Normalos }\left( Fan \right)=\frac{ Odds_{ Nerds }\left( Fan \right) }{ Odds_{ Normalos }\left( Fan \right) }=\frac{ 2,\bar{3} }{ 0,\bar{6} }=3,5
\beta_{ Nerds:Normalos }=ln\left( Odds Ratio_{ Nerds:Normalos } \right)=1,25

Berechnung via logistischer Regression in R

Zu dem gleichen Ergebnis kommt man, wenn man in R eine logistische Regression für die gegebenen Daten schätzt und den standartmäßig ausgegebenen Logit-Koeffizienten exponenziert.

R Code und Ausgabe von glm

Die Gruppenzugehörigkeit wird über eine Dummy-Variablen mit der Ausprägung 1 für alle Nerds und der Ausprägung 0 für alle Normalos erfasst, daher entspricht hier die Erhöhung der UV um eine Einheit hier dem Wechsel der Gruppenzugehörigkeit.

(Logarithmierte) Verhältnisse von Verhältnissen

Die Berechnung von Odds Ratios ist zwar einfach, jedoch sind Odds Ratios zur Interpretation logistischer Modelle nur auf den ersten Blick geeigneter als die logistischen Regressionskoeffizienten. Es handelt sich bei Odds Ratios um Verhältnisse von Wahrscheinlichkeitsverhältnissen. Genau wie in ihrer logarithmierten Form als Logits, entziehen Odds Ratios sich daher wohl dem intuitiven Verständnis der allermeisten Menschen.

Formal korrekt kann ausgesagt werden, dass eine Erhöhung einer gegebenen unabhängigen Variable um eine Einheit, mit einer Veränderung der Odds für das Auftreten der betrachteten Merkmalsausprägung der abhängigen Variable um den Faktor eβ einhergeht. Jedoch lässt sich von Odds Ratios, genauso wenig wie von logistischen Regressionskoeffizienten, nicht direkt auf die Wahrscheinlichkeiten in Gruppen oder die Wahrscheinlichkeitsverhältnisse zwischen kontrastierten Gruppen schließen.

Daher sind bei der Interpretation logistischer Regressionsmodelle Aussagen wie „…die Erhöhung einer der unabhängigen Variable um eine Einheit ist verbunden mit einer um eβ / β veränderten Wahrscheinlichkeit…“, nicht zulässig. Wie fehlgeleitet solche Behauptungen sind, wird deutlich, wenn man sich vor Augen führt, dass ganz unterschiedliche Ausgangswahrscheinlichkeiten in gleichen Odds Ratios beziehungsweise Logits resultieren können. So kann beispielsweise das Odds Ratio aus dem vorangegangenen Beispiel auch durch ganz andere Wahrscheinlichkeiten in zwei kontrastierten Gruppen entstehen:

P1P2Verhältnis P1 / P2Odds 1Odds 2Odds Ratio
\text{0,7}\text{0,4}\frac{0,7 }{0,4}=1,75\frac{0,7 }{1-0,7}=2,\bar{3}\frac{0,4 }{1-0,4}=0,\bar{6}\frac{2,\bar{3} }{0,\bar{6}}=3,5
\text{0,6}\text{0,3}\frac{0,6 }{0,3}=2\frac{0,6 }{1-0,6}=1,5\frac{0,3 }{1-0,3}=0,\overline{428571}\frac{1.5}{0,\overline{428571}}=3,5

Löst man die Formel zur Berechnung des Odds Ratio nach der Eintrittswahrscheinlichkeit einer der Gruppen auf, erhält man die Funktionsgleichung der Kurve auf der alle Wahrscheinlichkeitskombinationen mit dem selben Odds Ratio liegen. Nachstehend ist diese Kurve für ein Odds Ratio von 3,5 abgebildet.

Kombination von Wahrscheinlichkeiten mit einen OddRatio von 3.5

Fazit

Da selbst formal korrekte Interpretationen der absoluten Werten von Logits (β), genauso wie von Odds Ratios (eβ) uninformativ und potentiell irreführend sind, wird an dieser Stelle empfohlen lediglich die durch Logits und Odds Ratios implizierte Richtung von Zusammenhängen zu interpretieren. Eine Erhöhung einer unabhängigen Variable (um eine Einheit), geht bei Odds Ratios > 1 mit einer erhöhten, bei Odds Ratios < 1 mit einer verringerten Wahrscheinlichkeit für das Auftreten der betrachteten Ausprägung der abhängigen Variable einher. Für β-Koeffizienten, also logarithmierte Odds Ratios, gilt aufgrund der ln-Transformation, dass die Erhöhung einer unabhängigen Variable (um eine Einheit), bei β > 0 mit einer erhöhten, bei β < 0 mit einer verringerten Wahrscheinlichkeit für das Auftreten der betrachteten Ausprägung der abhängigen Variable einher geht.

Referenzen

  1. Best, H., & Wolf, C. (2012). Modellvergleich und Ergebnisinterpretation in Logit-und Probit-Regressionen. KZfSS Kölner Zeitschrift für Soziologie und Sozialpsychologie, 64(2), 377-395.
Über den Autor
Lea Waniek

Lea Waniek

I am data scientist at STATWORX, apart from machine learning, I love to play around with RMarkdown and ggplot2, making data science beautiful inside and out.