statistics word cloud

Stolperfalle Nicht-Linearität marginaler Effekte in der logistischen Regression

Lea Waniek Blog, Statistik

Im vorherigen Beitrag zur logistischen Regression wurde aufgezeigt, dass die absoluten Koeffizienten innerhalb logistischer Regressionsmodelle aufgrund ihrer Bezugseinheiten kaum verständlich zu interpretieren sind. Eine weitere Schwierigkeit bei der Interpretation logistischer Regressionsgewichte wurde bisher noch nicht explizit thematisiert: Der Effekt einer Erhöhung einer unabhängigen Variable um eine Einheit auf die Ausprägung der AV, der sogenannte marginale Effekt, ist in der logistischen Regression immer auch durch die genauen Ausprägung der betrachteten unabhängigen Variable, sowie aller anderen unabhängigen Variablen bedingt.

Schätzung auf Umwegen

Dies ist darauf zurückzuführen, dass die Auftrittswahrscheinlichkeit einer betrachteten Ausprägung einer kategorialen abhängigen Variable in der logistischen Regression in nichtlinearer Weise, sozusagen über einen Zwischenschritt, geschätzt wird: Im Prinzip wird in einem ersten Schritt über ein gewöhnliches lineares Modell die Ausprägung einer nicht beobachtbaren Variable, einer sogenannten latenten Variable, modelliert. Diese spiegelt die „Neigung “ für das Auftreten der betrachteten Kategorie der abhängigen Variable wieder. (Das Auftreten der interessierenden Kategorie der abhängigen Variable wird gängiger Weise als y = 1 notiert.)

y_{l} =\beta_{ 0 }+\beta_{ 1 }x_{ 1 } + ... + \beta_{ n }x_{ n } \\

Das logistische Regressionsmodell trifft nun die Annahme, dass die beobachtbare kategoriale Variable die jeweilige Ausprägung von Interesse annimmt, wenn die latente Variable den arbiträr gewählten Schwellenwert von 0 überschreitet. Die modellierten Ausprägungen der latenten Variable und die assoziierten Regressionsgewichte der unabhängigen Variablen aus dem linearen Modell müssen transformiert werden, um die Auftrittswahrscheinlichkeit der interessierenden Ausprägung der abhängigen Variable zu bestimmen. Für diese Transformation muss die Verteilung der Schätz-Fehler bekannt sein. Innerhalb des logistischen Regressionsmodells wird angenommen, dass die Fehler einer logistischen Verteilung folgen. Da nicht nur die funktionale Form, sondern die genaue Verteilung der Fehler bekannt sein muss, werden die nicht schätzbare Varianz der Fehler-Verteilung sowie ihr bedingter Erwartungswert auf die Werte  \sigma^{ 2 } =\pi^{ 2 } / 3 und  E(\epsilon|x) = 0 fixiert. Es ergibt sich die Grundgleichung des logistischen Modells:

 P(y = 1| x) = \frac{ e^{\beta_{ 0 }+\beta_{ 1 }x_{1} + ... + \beta_{ n }x_{ n }} }{ 1 + e^{\beta_{ 0 }+\beta_{ 1 }x_{ 1 } + ... + \beta_{ n }x_{ n }} } = \frac{e^ { x'\beta } }{ 1 + e^{x'\beta} } = \frac{ e^{Logit} }{ 1 + e^{Logit} } \\

Aus dieser Schätzmethode und Transformation folgt/resultiert, dass logistische Regressionskoeffizienten den linearen Zusammenhang zwischen den unabhängigen Variablen und der latenten Variable, beziehungsweise den Logits, beziehungsweise logarithmierten Odds Ratios, für die betrachtete Merkmalsausprägung der abhängigen Variablen wiedergeben. Die Beziehung von Logits, Odds Ratios und Regressionskoeffizienten zu Auftritts-Wahrscheinlichkeiten der Ausprägungen der abhängigen Variable ist jedoch nicht linear. Diese Nicht-Linearität ist in den Gleichungen des logistischen Regressionsmodells stets offensichtlich. Besonders bei der Betrachtung der entlogarithmierten logistischen Regressionskoeffizienten, den Odds Ratios, wird zudem auf den ersten Blick deutlich, dass eine multiplikative und keine additiv-lineare Verknüpfung der Regressionsgewichte besteht. Odds Ratios geben eine faktorielle Veränderung der Auftrittswahrscheinlichkeit an, deren absoluter Umfang natürlich von der „Basiswahrscheinlichkeit“ abhängt.

Basisgleichung des logistischen Modells:

 P(y = 1| x) = \frac{e^ { x'\beta } }{ 1 + e^{x'\beta} } = \frac{ e^{Logit} }{ 1 + e^{Logit} }\\

…aufgelöst nach dem Logit:

 Logit = ln\frac{ P }{ 1- P } = \beta_{ 0 }+\beta_{ 1 }x_{ 1 } + ... + \beta_{ n }x_{ n }\\

… und zusätzlich entlogarithmiert:

 OR := e^{ Logit } = e^{ ln\frac{ P }{ 1- P } } = e^{ \beta_{ 0 }+\beta_{ 1 }x_{ 1 } + ... + \beta_{ n }x_{ n } } = e^{\beta_{ 0 }}\times e^{\beta_{ 1 }x_{ 1 }} \times ... \times e^{\beta_{ n }x_{ n }}\\

Eine intuitive Veranschaulichung

Warum marginale Effekte von unabhängigen Variable jeweils von den genauen Ausprägungen aller unabhängigen Merkmale bedingt sind, lässt sich intuitiv wie folgt verstehen/erfassen: Eine Erhöhung der (latenten) Neigung für das Auftreten der betrachten Ausprägung der abhängigen Variable um einen gewissen Betrag, geht bei einer bereits sehr hohen/sehr niedrigen Neigung, weit unter/über dem Schwellenwert, mit einem vernachlässigbaren Effekt auf die vorhergesagte (Wahrscheinlichkeit der) tatsächlich beobachtete Ausprägung der abhängigen einher. Ist jedoch die (latente) Neigung nahe dem Schwellenwert, ist die Erhöhung der Neigung um einen gewissen Betrag sehr wahrscheinlich(er) ausschlaggebend/entscheidend für die vorhergesagte (Wahrscheinlichkeit der) Ausprägung der abhängigen Variable. Die bereits bestehende Neigung für das Auftreten der betrachten Kategorie ist wiederrum abhängig von den genauen Ausprägungen aller unabhängigen Merkmale.

Die Nicht-Linearität der marginalen Effekte unabhängiger Merkmale wird besonders in graphischen Darstellungen deutlich, wenn die Auftrittswahrscheinlichkeit über die Ausprägungen eines unabhängigen Merkmals abgetragen wird: Die Steigung der Kurve der Auftrittswahrscheinlichkeit ist nicht konstant.

Plot der bedingten Wahrscheinlichkeit

Lösung AME und MEM?

Es gibt verschiedene Möglichkeiten bei der Interpretation logistischer Modelle mit dieser Nicht-Linearität umzugehen. So können (Veränderungen der) Auftrittswahrscheinlichkeiten für unterschiedliche Kombinationen der Ausprägungen sowohl der interessierenden unabhängigen Variable, als auch der verbleibenden unabhängigen Variablen berechnet oder geplottet und so kontrastiert werden. Sollen marginale Effekte aber in einer kompakten, zusammenfassenden Kennziffer zum Ausdruck gebracht werden, können auch AMEs oder MEMs berechnet werden. Der average marginal Effekt (AME) ist der durchschnittliche Effekt der Erhöhung der unabhängigen Variablen um eine Einheit, gemittelt über alle vorhandenen Beobachtungen. Der marginal effect at the mean (MEM) ist der Effekt der Erhöhung der unabhängigen Variable um eine Einheit evaluiert am Mittelwert aller unabhängigen Variablen. Allerding ist zu bedenken, dass die inhaltlich bedeutsame Nicht-Linearität der Effekte durch AMEs absolut nicht deutlich wird und wichtige Informationen bezüglich der Effekte der unabhängigen Variablen schlicht vernachlässigt werden.

Über den Autor
Lea Waniek

Lea Waniek

I am data scientist at STATWORX, apart from machine learning, I love to play around with RMarkdown and ggplot2, making data science beautiful inside and out.