Hosmer-Lemeshow-Test

Aus testwiki
Zur Navigation springen Zur Suche springen

Der Hosmer-Lemeshow-Test wird zur Bewertung der Anpassungsgüte von Klassifikationsmodellen, wie beispielsweise der logistischen Regression, verwendet.[1][2] Die Berechnung der Testgröße beruht auf den beobachteten Werten y1,,yn{0,1} von Bernoulli-verteilten Zufallsvariablen Y1,,Yn mit unbekannten Eintrittswahrscheinlichkeiten (Bernoulli-Parametern) und den aus einer logistischen Regression mit Hilfe der Maximum-Likelihood-Methode gewonnenen Schätzwerten für diese unbekannten Eintrittswahrscheinlichkeiten. Dabei bezeichnet n die Anzahl der Beobachtungen (Untersuchungseinheiten). Die Grundidee des Tests ist, aus den beobachteten Werten y1,,yn und den geschätzten Wahrscheinlichkeiten eine Testgröße zu bilden, mit deren Hilfe auf die Gültigkeit der Modellannahmen geschlossen werden kann.

Der Hosmer-Lemeshow-Test wird zur Überprüfung der Kalibrierung eines Modells eingesetzt[3].

Kalibrierungskurven

Hosmer-Lemeshow-Test für die logistische Regression

Testidee

Mit

pi:=P^(Yi=1),i=1,,n

seien die mit Hilfe der Maximum-Likelihood-Methode aus einem logistischen Regressionsmodell gewonnenen Schätzwerte für die unbekannten Eintrittswahrscheinlichkeiten P(Yi=1) bezeichnet.

Die Grundidee des Hosmer-Lemeshow-Tests ist, dass sich für eine Teilmenge M{1,,n} mit m<n Elementen, die ähnliche geschätzte Eintrittswahrscheinlichkeiten haben, die beobachtete relative Häufigkeit po,M:=1miMyi der eingetretenen Ereignisse und die durchschnittliche durch die logistische Regression geschätzte Eintrittswahrscheinlichkeit p¯M=1miMpi nicht zu stark unterscheiden und dass sich diese Abweichungen durch eine Wahrscheinlichkeitsverteilung beschreiben lassen, falls das Modell richtig ist.

Testgröße

Für die Testdurchführung werden die Untersuchungseinheiten in g<n disjunkte Gruppen aufgeteilt, wobei die Anzahl der Gruppen abhängig von den Beobachtungswerten fixiert werden. Eine typische Gruppenzahl ist g=10. Die Zuordnung zu den Gruppen erfolgt anhand der geschätzten Eintrittswahrscheinlichkeiten p1,,pn. Dabei gibt es zwei Methoden für die Gruppenbildung. Bei der ersten Methode erfolgt die Zuordnung anhand von vorgegebenen festen Intervalle, z. B. (0,0.1], (0.1,0.2],,(0.8,0.9], (0.9,1). Bei der zweiten Methode werden die Intervallgrenzen durch die Dezile der geschätzten Eintrittswahrscheinlichkeiten festgelegt, so dass etwa 10 gleichgroße Gruppen entstehen. Die so gebildeten Gruppen sind durch G disjunkte Teilmengen Mj{1,,n} mit j=1gMj={1,,n} charakterisiert, die jeweils die Indizes derjenigen Untersuchungseinheiten enthalten, die zur Gruppe j gehören. Diese beiden Varianten sind der Grund für die Abschnittsüberschrift 5.2.2 The-Hosmer-Lemeshow-Tests.[2]

Die Testgröße ist

h:=j=1g(ojnjp¯j)2njp¯j(1p¯j).

Dabei bezeichnen

nj=#Mj

die Anzahl der Beobachtungseinheiten in der Gruppe j,

oj=iMjyi=po,Mjnj

die Anzahl der beobachteten (Vorlage:EnS observed) Ereignisse in der Gruppe j und

p¯j:=1njiMjpi

die mittlere geschätzte Eintrittswahrscheinlichkeit in der Gruppe j.

Das Produkt ej:=njp¯j kann als die geschätzte erwartete (Vorlage:EnS expected) Anzahl der Ereignisse in der Gruppe j interpretiert werden. Damit ergibt sich für die Hosmer-Lemeshow-Prüfgröße die äquivalente Darstellung

h=j=1g(ojej)2njp¯j(1p¯j)

die an eine Chi-Quadrat-Statistik erinnert. Im Unterschied zu dieser hängen alle Größen von den Beobachtungen ab, da die ej nicht, wie bei der Chi-Quadrat-Statistik die aufgrund eines Modells erwarteten Häufigkeiten, sondern geschätzte erwartete Häufigkeiten sind, die über die geschätzten Eintrittswahrscheinlichkeiten pj von allen beobachteten Werten der erklärten und der erklärenden Variablen abhängen.

Eine weitere in der Literatur anzutreffende äquivalente Darstellung[4] der Testgröße h mit 2g anstelle von g Summenaden ergibt sich aus einer Unterscheidung zwischen Erfolgen (yi=1) und Misserfolgen (yi=0). Die Hosmer-Lemeshow-Prüfgröße wird dann als

h=j=1g((ojej)2ej+(oj0ej0)2ej0)

geschrieben, wobei – ergänzend zu obiger Notation –

oj0:=njoj

die Anzahl der beobachteten Misserfolge in Gruppe j ist und

ej0:=nj(1π¯j)=njej

die geschätzte erwartete Anzahl der Misserfolge in der Gruppe j ist.

Die beiden Varianten der Testgröße, die sich aus der Gruppenbildung mit festen Grenzen und mit beobachtungsabhängigen Grenzen ergeben, werden in der Literatur häufig mit C^ und H^ bezeichnet. Dabei wird häufig weder in der Notation, noch in der Sprechweise zwischen der Testgröße als aus den beobachteten Werten berechneter Zahl und der Teststatistik, die als Stichprobenvariable eine Zufallsvariable mit einer Wahrscheinlichkeitsverteilung ist.

Testdurchführung

Hosmer und Lemeshow vertreten die Position, dass die Testgröße h unter sehr allgemeinen Bedingungen der realisierte Wert einer Zufallsvariablen H ist, die bei Richtigkeit des logistischen Regressionsmodells für hinreichend großen Stichprobenumfang näherungsweise einer Chi-Quadrat-Verteilung mit g2 Freiheitsgraden folgt.

Die berechnete Testgröße h wird daher mit den Quantilen einer Chi-Quadrat-Verteilung mit g2 Freiheitsgraden verglichen, wobei kleine Werte für eine gute Anpassungsgüte sprechen.

Theoretische Grundlage

Anders als sonst bei statistischen Testverfahren üblich, liegt kein bewiesener Satz vor, aus dem hervorgeht, unter welchen Bedingungen eine Teststatistik, deren Realisation die Hosmer-Lemeshow-Testgröße h ist, approximativ oder asymptotisch einer Chi-Quadrat-Verteilung mit g2 Freiheitsgraden folgt. Die Basis ist vielmehr eine Vermutung, die durch Simulationsuntersuchungen gestützt wird. „Using an extensive set of simulations, Hosmer and Lemeshow (1980) demonstrated that, when J=n and the fitted model is the correct model, the distribution of C^ is well approximated by the chi-square distribution with g2 degrees of freedom χ2(g2). While not specically examined, it is likely that χ2(g2) also approximated the distribution when Jn.“[5] Hierbei bezeichnet J die Anzahl der beobachteten Wertekonstellationen der erklärenden Variablen (Kovariablen) (covariate pattern[6]) und n die Anzahl der beobachteten Werte. „This is the case most frequently encountered in practice, when there is at least one continuous covariate in the model.“[7] Jedenfalls setzen damit die Autoren des Tests ein Warnsignal für Anwendungen, bei denen J deutlich kleiner als n ist.

Hosmer-Lemeshow-Test für die multinomiale logistische Regression

Eine Verallgemeinerung der logistischen Regression, bei der die erklärte Variable die beiden Wert 0 und 1 annehmen kann, ist die multinomiale logistische Regression, bei der die erklärte Variable Werte in der Menge {0,1,,c1} annimmt und c3 die Anzahl der Kategorien ist.[8] Für diesen Fall existiert eine Verallgemeinerung des Hosmer-Lemeshow-Tests.[9][10]

In diesem Fall gibt es g Gruppen und c Kategorien, wobei die Kategorie 0 als Referenzkategorie dient. Die zu berechnende Testgröße hat dann cg Summanden und besitzt die Form

h=j=1gk=0c1(ojkejk)2ejk,

wobei die ojk die beobachteten Ereignisse und ejk die erwarteten geschätzten Ereignisse in Gruppe j und Kategorie k sind.

Literatur

Einzelnachweise