Cook-Abstand

Aus testwiki
Zur Navigation springen Zur Suche springen

In der Statistik, insbesondere in der Regressionsdiagnostik, ist der Cook-Abstand, die Cook-Maßzahl, oder auch Cook'sche Distanz genannt, die wichtigste Maßzahl zur Bestimmung sogenannter einflussreicher Beobachtungen, wenn eine Kleinste-Quadrate-Regression durchgeführt wurde. Der Cook-Abstand ist nach dem amerikanischen Statistiker R. Dennis Cook benannt, der das Konzept 1977 vorstellte.

Definition

Datenpunkte mit großen Residuen (Ausreißern) und/oder großen „Hebelwerten“ könnten das Ergebnis und die Präzision einer Regression beeinflussen. Der Cook-Abstand misst den Effekt der Auslassung einer gegebenen Beobachtung. Datenpunkte mit einem großen Cook-Abstand sollte man bei der Datenanalyse näher betrachten. Es sei das multiple lineare Regressionsmodell in Vektor-Matrix-Form:

𝐲n×1=𝐗n×p𝜷p×1+𝜺n×1,

wobei der Störgrößenvektor einer mehrdimensionalen Normalverteilung folgt 𝜺𝒩(𝟎,σ2𝐈) und 𝜷=(β0β1,,βk) der Vektor der Regressionskoeffizienten ist (hierbei ist p=k+1 die Anzahl der zu schätzenden unbekannten Parameter und k die Anzahl der erklärenden Variablen), und 𝐗 die Datenmatrix. Der Kleinste-Quadrate-Schätzvektor lautet dann 𝜷^=(𝐗𝐗)1𝐗𝐲, woraus folgt, dass sich der Schätzvektor der abhängigen Variablen wie folgt ergibt:

𝐲^=𝐗𝜷^=𝐗(𝐗𝐗)1𝐗=𝐏𝐲=𝐏𝐲,

wobei 𝐏𝐗(𝐗𝐗)1𝐗 die Prädiktionsmatrix darstellt. Das ite Diagonalelement von 𝐏 ist gegeben durch pii𝐱i(𝐗𝐗)1𝐱i, wobei 𝐱i die i-te Zeile der Datenmatrix 𝐗 ist.[1] Die Werte werden auch als „Hebelwerte“ der iten Beobachtung bezeichnet. Um den Einfluss eines Punktes (yi,𝐱i) zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf 𝜷 und 𝐲^=𝐗𝜷^. Der Schätzer von 𝜷, der dadurch gewonnen wird, dass die ite Beobachtung (yi,𝐱i) ausgelassen wird, ist gegeben durch 𝜷^(i)=(𝐗(i)𝐗(i))1𝐗(i)𝐲(i).[2] Man kann 𝜷^(i) mit 𝜷^ mittels dem Cook-Abstand vergleichen, der definiert ist durch:[3][4]

Di=(𝜷^(i)𝜷^)(𝐗𝐗)(𝜷^(i)𝜷^)(k+1)s2=(𝐗𝜷^(i)𝐗𝜷^)(𝐗𝜷^(i)𝐗𝜷^)(k+1)s2=(𝐲^(i)𝐲^)(𝐲^(i)𝐲^)(k+1)s2,

wobei s2 die erwartungstreue Schätzung der Varianz der Störgrößen darstellt. Das Maß Di ist proportional zum gewöhnlichen euklidischen Abstand zwischen 𝐲^(i) und 𝐲^. Daher ist Di groß, wenn die Beobachtung (yi,𝐱i) eine substantiellen Einfluss auf sowohl 𝜷^, als auch 𝐲^ hat.

Eine numerisch einfachere Darstellung von Di ist gegeben durch:[5]

Di=ti2k+1(pii1pii),

wobei ti die studentisierten Residuen ti=ε^is(i)21pii  darstellen.

Erkennen von stark einflussreichen Beobachtungen

Es gibt unterschiedliche Ansätze zur Bestimmung der Grenzen, was stark einflussreiche Beobachtungen sein sollen. Es wurde die einfache Daumenregel Di>1 vorgeschlagen.[6] Andere Autoren haben Di>4/n vorgeschlagen, wobei n die Anzahl der Beobachtungen ist.[7]

Siehe auch

Literatur

Einzelnachweise

  1. Fumio Hayashi: Econometrics., Princeton University Press., 2000, S. 21–23
  2. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 236
  3. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 165.
  4. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
  5. Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
  6. R. Dennis Cook und Sanford Weisberg: Residuals and Influence in Regression, 1982., New York, Chapman & Hall, ISBN 0-412-24280-X
  7. Kenneth A. Bollen und Robert W. Jackman: Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases in Modern Methods of Data Analysis (1990), Newbury Park, CA, ISBN 0-8039-3366-5, S. 257–9.