Cook-Abstand: Unterschied zwischen den Versionen

Aus testwiki
Zur Navigation springen Zur Suche springen
Korrektur. In der Quelle steht es so da.
 
(kein Unterschied)

Aktuelle Version vom 23. Mai 2024, 14:33 Uhr

In der Statistik, insbesondere in der Regressionsdiagnostik, ist der Cook-Abstand, die Cook-Maßzahl, oder auch Cook'sche Distanz genannt, die wichtigste Maßzahl zur Bestimmung sogenannter einflussreicher Beobachtungen, wenn eine Kleinste-Quadrate-Regression durchgeführt wurde. Der Cook-Abstand ist nach dem amerikanischen Statistiker R. Dennis Cook benannt, der das Konzept 1977 vorstellte.

Definition

Datenpunkte mit großen Residuen (Ausreißern) und/oder großen „Hebelwerten“ könnten das Ergebnis und die Präzision einer Regression beeinflussen. Der Cook-Abstand misst den Effekt der Auslassung einer gegebenen Beobachtung. Datenpunkte mit einem großen Cook-Abstand sollte man bei der Datenanalyse näher betrachten. Es sei das multiple lineare Regressionsmodell in Vektor-Matrix-Form:

𝐲n×1=𝐗n×pβp×1+εn×1,

wobei der Störgrößenvektor einer mehrdimensionalen Normalverteilung folgt ε𝒩(𝟎,σ2𝐈) und β=(β0β1,,βk) der Vektor der Regressionskoeffizienten ist (hierbei ist p=k+1 die Anzahl der zu schätzenden unbekannten Parameter und k die Anzahl der erklärenden Variablen), und 𝐗 die Datenmatrix. Der Kleinste-Quadrate-Schätzvektor lautet dann β^=(𝐗𝐗)1𝐗𝐲, woraus folgt, dass sich der Schätzvektor der abhängigen Variablen wie folgt ergibt:

𝐲^=𝐗β^=𝐗(𝐗𝐗)1𝐗=𝐏𝐲=𝐏𝐲,

wobei 𝐏𝐗(𝐗𝐗)1𝐗 die Prädiktionsmatrix darstellt. Das ite Diagonalelement von 𝐏 ist gegeben durch pii𝐱i(𝐗𝐗)1𝐱i, wobei 𝐱i die i-te Zeile der Datenmatrix 𝐗 ist.[1] Die Werte werden auch als „Hebelwerte“ der iten Beobachtung bezeichnet. Um den Einfluss eines Punktes (yi,𝐱i) zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf β und 𝐲^=𝐗β^. Der Schätzer von β, der dadurch gewonnen wird, dass die ite Beobachtung (yi,𝐱i) ausgelassen wird, ist gegeben durch β^(i)=(𝐗(i)𝐗(i))1𝐗(i)𝐲(i).[2] Man kann β^(i) mit β^ mittels dem Cook-Abstand vergleichen, der definiert ist durch:[3][4]

Di=(β^(i)β^)(𝐗𝐗)(β^(i)β^)(k+1)s2=(𝐗β^(i)𝐗β^)(𝐗β^(i)𝐗β^)(k+1)s2=(𝐲^(i)𝐲^)(𝐲^(i)𝐲^)(k+1)s2,

wobei s2 die erwartungstreue Schätzung der Varianz der Störgrößen darstellt. Das Maß Di ist proportional zum gewöhnlichen euklidischen Abstand zwischen 𝐲^(i) und 𝐲^. Daher ist Di groß, wenn die Beobachtung (yi,𝐱i) eine substantiellen Einfluss auf sowohl β^, als auch 𝐲^ hat.

Eine numerisch einfachere Darstellung von Di ist gegeben durch:[5]

Di=ti2k+1(pii1pii),

wobei ti die studentisierten Residuen ti=ε^is(i)21pii  darstellen.

Erkennen von stark einflussreichen Beobachtungen

Es gibt unterschiedliche Ansätze zur Bestimmung der Grenzen, was stark einflussreiche Beobachtungen sein sollen. Es wurde die einfache Daumenregel Di>1 vorgeschlagen.[6] Andere Autoren haben Di>4/n vorgeschlagen, wobei n die Anzahl der Beobachtungen ist.[7]

Siehe auch

Literatur

Einzelnachweise

  1. Fumio Hayashi: Econometrics., Princeton University Press., 2000, S. 21–23
  2. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 236
  3. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 165.
  4. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
  5. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
  6. R. Dennis Cook und Sanford Weisberg: Residuals and Influence in Regression, 1982., New York, Chapman & Hall, ISBN 0-412-24280-X
  7. Kenneth A. Bollen und Robert W. Jackman: Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases in Modern Methods of Data Analysis (1990), Newbury Park, CA, ISBN 0-8039-3366-5, S. 257–9.