Logistische Regression

Aus testwiki
Version vom 11. Februar 2025, 22:39 Uhr von imported>StatMind
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen
Beispiel einer logistischen Regression welche an binäre Daten angepasst ist. Die Kurve zeigt die geschätzte (bedingte) Wahrscheinlichkeit ein Examen zu bestehen (ja/nein) in Abhängigkeit von der Lernzeit.

Unter logistischer Regression oder Logit-Modell versteht man in der Statistik Regressionsanalysen zur (meist multiplen) Modellierung der Verteilung abhängiger diskreter Variablen. Wenn logistische Regressionen nicht näher als multinomiale oder geordnete logistische Regressionen gekennzeichnet sind, ist zumeist die binomiale logistische Regression für dichotome (binäre) abhängige Variablen gemeint. Die unabhängigen Variablen können dabei ein beliebiges Skalenniveau aufweisen, wobei diskrete Variablen mit mehr als zwei Ausprägungen in eine Serie binärer Dummy-Variablen zerlegt werden.[1][2]

Im binomialen Fall liegen Beobachtungen der Art (yi;xi1,xi2,,xik),i=1,,n vor, wobei Yi eine binäre abhängige Variable (den so genannten Regressanden) bezeichnet, deren Wert yi{0,1} zusammen mit bekannten und festen Werten von k Regressoren (Kovariablen, erklärenden Variablen) xi1,xi2,,xik auftritt. n bezeichnet die Anzahl der Beobachtungen.[1][2]

Motivation

Logistische Funktion; Verteilungsfunktion der logistischen Verteilung

Die klassische lineare Regressionsanalyse eignet sich nicht zur Untersuchung von Einflüssen auf diskrete Variablen, da sie wichtige Annahmen wie die Normalverteilung der Residuen und Homoskedastizität häufig nicht erfüllt. Ein weiteres Problem tritt auf, wenn die abhängige Variable binär ist und mit den Werten 0 und 1 kodiert wird. Zwar könnte man die Vorhersage des Modells als Wahrscheinlichkeit für den Wert 1 der abhängigen Variablen interpretieren P(Yi=1), jedoch führt die lineare Regression oft zu unzulässigen Vorhersagen außerhalb des Bereichs [0,1].[1]

Die logistische Regression löst dieses Problem, indem sie die lineare Vorhersage einer Transformation (logit) unterzieht, die sicherstellt, dass die Vorhersagen immer im gültigen Bereich [0,1] liegen. Auf diese Weise liefert das Modell korrekte Wahrscheinlichkeiten und ist somit besser geeignet, um den Einfluss von unabhängigen Variablen auf binäre, diskrete abhängige Variablen zu untersuchen.[1]

Die Relevanz des Logit-Modells wird auch dadurch deutlich, dass Daniel McFadden und James Heckman im Jahr 2000 für ihren Beitrag zu seiner Entwicklung den Alfred-Nobel-Gedächtnispreis für Wirtschaftswissenschaften verliehen bekamen.

Das Modell der logistischen Regression ist ein Spezialfall des verallgemeinerten linearen Modells.

Modellspezifikation

Mit xi1,,xik sind die Werte der Regressorvariablen für die i-te Beobachtung bezeichnet, mit β0,β1,,βk sind die unbekannten Regressionskoeffizienten bezeichnet und mit

ηi:=β0+xi1β1+xi2β2++xikβk,i=1,,n

sind die Werte des so genannten linearen Prädiktors bezeichnet.

Die beobachteten Werte yi{0,1} für i=1,,n der erklärten Variablen werden als Realisierungen stochastisch unabhängiger Bernoulli-verteilter Zufallsvariablen Y1,,Yn aufgefasst. Deren Bernoulli-Parameter hängt auf nichtlineare Art über die Verteilungsfunktion

F(x)=ex1+ex=11+ex,x

der logistischen Verteilung, die auch logistische Funktion heißt, vom linearen Prädiktor und damit von den Werten der Regressorvariablen ab.

Das Modell der logistischen Regression postuliert dann für die Bernoulli-verteilten Zufallsvariablen Y1,,Yn:

  1. Die Zufallsvariablen Y1,,Yn sind stochastisch unabhängig,
  2. P(Yi=1)=F(ηi)=exp(ηi)1+exp(ηi)=11+exp(ηi),i=1,,n.

Eigenschaften

Die Zufallsvariablen Y1,,Yn sind im Allgemeinen nicht identisch verteilt. Aus ηi=ηj folgt, dass Yi und Yj identisch verteilt sind.

Für i=1,,n gilt:

  • 0<P(Yi=1)<1
  • P(Yi=0)=1P(Yi=1)=11+exp(ηi)(0,1)
  • E[Yi]=P(Yi=1)=F(ηi)
  • Var[Yi]=P(Yi=1)(1P(Yi=1)=F(ηi)F(ηi)

Die logistische Funktion F ist invertierbar. Die Umkehrfunktion

Logit(p):=F1(p)=ln(p1p),0<p<1

heißt auch Logit-Funktion. Zu einer Wahrscheinlichkeit 0<p<1 heißt Logit(p) das Logit von p.

Zur Interpretation

Ausgehend von der Gleichung P(Yi=1)=F(ηi) ist ersichtlich, dass ηi=F1(P(Yi=1)) gilt, was äquivalent zu ηi=lnP(Yi=1)1P(Yi=1)=lnP(Yi=1)P(Yi=0)Oddsi ist.

Somit geht das Modell der logistischen Regression von der Idee Chancen (Vorlage:EnS odds) aus, d. h. dem Verhältnis von P(Yi=1) zur Gegenwahrscheinlichkeit 1P(Yi=1)=P(Yi=0) (bei Kodierung der Alternativkategorie mit 0)

Oddsi:=P(Yi=1)1P(Yi=1)=P(Yi=1)P(Yi=0).
Funktionsgraph der Logit-Funktion

Die Chancen können zwar Werte größer 1 annehmen, doch ist ihr Wertebereich nach unten beschränkt (er nähert sich asymptotisch 0 an). Ein unbeschränkter Wertebereich wird durch die Transformation der Chancen in die sogenannten Logits

Logiti:=ln(Oddsi)=ln(P(Yi=1)P(Yi=0))

erzielt; diese können Werte zwischen minus und plus unendlich annehmen. Die Logits dienen als eine Art Kopplungsfunktion zwischen der Wahrscheinlichkeit und dem linearen Prädiktor. In der logistischen Regression wird dann die Regressionsgleichung

Logiti=β0+xi1β1+xi2β2++xikβk

geschätzt; es werden also Regressionsgewichte bestimmt, nach denen die geschätzten Logits für gegebene Werte der Regressoren berechnet werden können. Die folgende Grafik zeigt, wie Logits (Ordinate) mit den Ausgangswahrscheinlichkeiten P(Yi=1) (Abszisse) zusammenhängen:

Die Regressionskoeffizienten der logistischen Regression sind nicht einfach zu interpretieren. Daher bildet man häufig die sogenannten Effektkoeffizienten durch Exponenzieren; die Regressionsgleichung bezieht sich dadurch auf die Chancen:

P(Yi=1)P(Yi=0)=Oddsi=exp(β0+xi1β1+xi2β2++xikβk).

Betrachtet man nun die Änderung der Oddsi der i-ten Untersuchungseinheit, wenn sich für die j-te erklärte Variable (j{1,,k}) der Wert xij auf xij+1 ändert, so betrachtet man:

Oddsi(xi1,,xij+1,,xik)Oddsi(xi1,,xij,,xik)=exp(βj(xij+1))exp(βjxij)=exp(βj)

Die Koeffizienten exp(βj) für j=1,,k werden oft auch als Effektkoeffizienten bezeichnet. Sie beschreiben das Chancenverhältnis, (eng. odds ratio) wenn sich xij um Δxij=1 ändert. Hier bedeuten Effektkoeffizienten kleiner 1 einen negativen Einfluss auf die Chancen, ein positiver Einfluss ist gegeben, wenn exp(βj)>1.

Durch eine weitere Transformation lassen sich die Einflüsse der logistischen Regression auch als Einflüsse auf die Wahrscheinlichkeiten P(Yi=1) ausdrücken:

P(Yi=1)=F(ηi)=exp(β0+xi1β1+xi2β2++xikβk)1+exp(β0+xi1β1+xi2β2++xikβk).

Schätzmethode und Likelihoodfunktion

Anders als bei der linearen Regressionsanalyse ist eine direkte Berechnung der besten Regressionskurve nicht möglich. Deshalb wird zumeist mit einem iterativen Algorithmus[3] eine Maximum-Likelihood-Lösung geschätzt.

Aus den Modellannahmen ergibt sich die Likelihoodfunktion

L(β0,β1,,βk)=i=1nP(Yi=yi)=i:yi=1P(Yi=1)i:yi=0P(Yi=0)=i=1n(exp(ηi)1+exp(ηi))yi(11+exp(ηi))1yi,

deren numerische Maximierung bei fixierten Werten yi,xi1,,xik für i=1,,n zum Maximum-Likelihood-Schätzwert (b0,b1,,bk) für den Parametervektor (β0,β1,,βk) führt.

Falls einzelne Parameter interpretiert werden sollen, und nicht nur der lineare Prädiktor zur Prognose verwendet werden soll, ist Multikollinearität der Regressoren schädlich.

Aus den Maximum-Likelihood-Schätzwerten b0,b1,,bk für die unbekannten Parameter β0,β1,,βk erhält man durch Ersetzen die Schätzwerte

η^i=b0+xi1b1+xi2b2++xikbk,i=1,,n

für die linearen Prädiktoren ηi und die Schätzwerte

P^(Yi=1)=F(η^i),i=1,,n

für die Wahrscheinlichkeiten P(Yi=1).

Modelldiagnose

Die Regressionsparameter werden auf der Grundlage des Maximum-Likelihood-Verfahrens geschätzt. Inferenzstatistische Verfahren stehen sowohl für die einzelnen Regressionskoeffizienten als auch für das Gesamtmodell zur Verfügung (siehe Wald-Test und Likelihood-Quotienten-Test).

Regressionsdiagnostik

In Analogie zum linearen Regressionsmodell wurden Verfahren der Regressionsdiagnostik entwickelt, anhand derer einzelne Fälle mit übergroßem Einfluss auf das Ergebnis der Modellschätzung identifiziert werden können. Es gibt auch einige Vorschläge zur Berechnung einer Größe, die in Analogie zum Bestimmtheitsmaß 𝑅2 der linearen Regression eine Abschätzung der „erklärten Variation“ erlaubt; man spricht hier von sogenannten Pseudo-Bestimmtheitsmaßen. Auch das Informationskriterium nach Akaike und das bayessche Informationskriterium werden in diesem Kontext gelegentlich herangezogen. Ebenfalls wird die ROC-Kurve zur Beurteilung der Vorhersagekraft logistischer Regressionen verwendet, wobei die Fläche unter der ROC-Kurve (kurz: AUROC) als Gütekriterium fungiert.[4]

Hosmer-Lemeshow-Test

Vorlage:Hauptartikel Insbesondere bei Modellen zur Risikoadjustierung wird häufig der Hosmer-Lemeshow-Test zur Bewertung der Anpassungsgüte verwendet.[5][6] Die Berechnung der Testgröße beruht auf den beobachteten Werten y1,,yn{0,1} und den Schätzwerten

pi:=P^(Yi=1)=F(η^i),i=1,,n

für die Eintrittswahrscheinlichkeiten. Die Grundidee dieses Tests ist, dass sich für eine Teilmengen der Untersuchungseinheiten mit ähnlichen geschätzten Eintrittswahrscheinlichkeiten die beobachteten relativen Häufigkeiten der eingetretenen Ereignisse und die durchschnittlichen geschätzten Eintrittswahrscheinlichkeiten nicht zu stark unterscheiden.

Alternativen und Erweiterungen

Eine Erweiterung der logistischen Regression stellt die ordinale logistische Regression (Geordnete logistische Regression) dar; eine Variante dieser ist das kumulative Logit-Modell.

Als (im Wesentlichen gleichwertige) Alternative kann das Probit-Modell herangezogen werden, bei dem eine Normalverteilung zugrunde gelegt wird.

Eine Übertragung der logistischen Regression (und des Probit-Modells) auf eine abhängige Variable mit mehr als zwei diskreten Merkmalen ist möglich – dies ist die multinomiale logistische Regression.

Literatur

  • Alan Agresti: Categorical Data Analysis. 2. Auflage. Wiley, New York 2002, ISBN 0-471-36093-7.
  • Hans-Jürgen Andreß, J.-A. Hagenaars, Steffen Kühnel: Analyse von Tabellen und kategorialen Daten. Springer, Berlin 1997, ISBN 3-540-62515-1.
  • Vorlage:Literatur
  • Dieter Urban: Logit Analyse. Lucius & Lucius, Stuttgart 1998, ISBN 3-8282-4306-1.
  • Scott J. Long: Regression Models for Categorical and Limited Dependent Variables. Sage 1997, ISBN 0-8039-7374-8.
  • Vorlage:Literatur
  • Vorlage:Literatur

Einzelnachweise

  1. 1,0 1,1 1,2 1,3 Vorlage:Literatur
  2. 2,0 2,1 Vorlage:Literatur
  3. Paul David Allison: Logistic regression using the SAS system theory and application. SAS Institute, Cary NC 1999, S. 48.
  4. Vorlage:Literatur
  5. Vorlage:Literatur
  6. Vorlage:Literatur