Cook-Abstand

In der Statistik, insbesondere in der Regressionsdiagnostik, ist der Cook-Abstand, die Cook-Maßzahl, oder auch Cook'sche Distanz genannt, die wichtigste Maßzahl zur Bestimmung sogenannter einflussreicher Beobachtungen, wenn eine Kleinste-Quadrate-Regression durchgeführt wurde. Der Cook-Abstand ist nach dem amerikanischen Statistiker R. Dennis Cook benannt, der das Konzept 1977 vorstellte.

Definition

Datenpunkte mit großen Residuen (Ausreißern) und/oder großen „Hebelwerten“ könnten das Ergebnis und die Präzision einer Regression beeinflussen. Der Cook-Abstand misst den Effekt der Auslassung einer gegebenen Beobachtung. Datenpunkte mit einem großen Cook-Abstand sollte man bei der Datenanalyse näher betrachten. Es sei das multiple lineare Regressionsmodell in Vektor-Matrix-Form:

\underset{n \times 1}{𝐲} = \underset{n \times p}{𝐗} \underset{p \times 1}{𝜷} + \underset{n \times 1}{𝜺}

,

wobei der Störgrößenvektor einer mehrdimensionalen Normalverteilung folgt $𝜺 \sim 𝒩 (𝟎, σ^{2} 𝐈)$ und $𝜷 = {(β_{0} β_{1}, \dots, β_{k})}^{⊤}$ der Vektor der Regressionskoeffizienten ist (hierbei ist $p = k + 1$ die Anzahl der zu schätzenden unbekannten Parameter und $k$ die Anzahl der erklärenden Variablen), und $𝐗$ die Datenmatrix. Der Kleinste-Quadrate-Schätzvektor lautet dann $\hat{𝜷} = {(𝐗^{⊤} 𝐗)}^{- 1} 𝐗^{⊤} 𝐲$ , woraus folgt, dass sich der Schätzvektor der abhängigen Variablen wie folgt ergibt:

\hat{𝐲} = 𝐗 \hat{𝜷} = \underset{= 𝐏}{\underset{⏟}{𝐗 {(𝐗^{⊤} 𝐗)}^{- 1} 𝐗^{⊤}}} 𝐲 = 𝐏 𝐲

,

wobei $𝐏 \equiv 𝐗 {(𝐗^{⊤} 𝐗)}^{- 1} 𝐗^{⊤}$ die Prädiktionsmatrix darstellt. Das $i$ te Diagonalelement von $𝐏$ ist gegeben durch $p_{i i} \equiv 𝐱_{i}^{⊤} {(𝐗^{⊤} 𝐗)}^{- 1} 𝐱_{i}$ , wobei $𝐱_{i}^{⊤}$ die $i$ -te Zeile der Datenmatrix $𝐗$ ist.^[1] Die Werte werden auch als „Hebelwerte“ der $i$ ten Beobachtung bezeichnet. Um den Einfluss eines Punktes $(y_{i}, 𝐱_{i}^{⊤})$ zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf $𝜷$ und $\hat{𝐲} = 𝐗 \hat{𝜷}$ . Der Schätzer von $𝜷$ , der dadurch gewonnen wird, dass die $i$ te Beobachtung $(y_{i}, 𝐱_{i}^{⊤})$ ausgelassen wird, ist gegeben durch ${\hat{𝜷}}_{(i)} = (𝐗_{(i)}^{⊤} 𝐗_{(i)})^{- 1} 𝐗_{(i)}^{⊤} 𝐲_{(i)}$ .^[2] Man kann ${\hat{𝜷}}_{(i)}$ mit $\hat{𝜷}$ mittels dem Cook-Abstand vergleichen, der definiert ist durch:^[3]^[4]

D_{i} = \frac{({\hat{𝜷}}_{(i)} - \hat{𝜷})^{⊤} (𝐗^{⊤} 𝐗) ({\hat{𝜷}}_{(i)} - \hat{𝜷})}{(k + 1) s^{2}} = \frac{(𝐗 {\hat{𝜷}}_{(i)} - 𝐗 \hat{𝜷})^{⊤} (𝐗 {\hat{𝜷}}_{(i)} - 𝐗 \hat{𝜷})}{(k + 1) s^{2}} = \frac{({\hat{𝐲}}_{(i)} - \hat{𝐲})^{⊤} ({\hat{𝐲}}_{(i)} - \hat{𝐲})}{(k + 1) s^{2}}

,

wobei $s^{2}$ die erwartungstreue Schätzung der Varianz der Störgrößen darstellt. Das Maß $D_{i}$ ist proportional zum gewöhnlichen euklidischen Abstand zwischen ${\hat{𝐲}}_{(i)}$ und $\hat{𝐲}$ . Daher ist $D_{i}$ groß, wenn die Beobachtung $(y_{i}, 𝐱_{i}^{⊤})$ eine substantiellen Einfluss auf sowohl $\hat{𝜷}$ , als auch $\hat{𝐲}$ hat.

Eine numerisch einfachere Darstellung von $D_{i}$ ist gegeben durch:^[5]

D_{i} = \frac{t_{i}^{2}}{k + 1} (\frac{p_{i i}}{1 - p_{i i}})

,

wobei $t_{i}$ die studentisierten Residuen $t_{i} = \frac{{\hat{ε}}_{i}}{s_{(i)}^{2} \sqrt{1 - p_{i i}}}$ darstellen.

Erkennen von stark einflussreichen Beobachtungen

Es gibt unterschiedliche Ansätze zur Bestimmung der Grenzen, was stark einflussreiche Beobachtungen sein sollen. Es wurde die einfache Daumenregel $D_{i} > 1$ vorgeschlagen.^[6] Andere Autoren haben $D_{i} > 4 / n$ vorgeschlagen, wobei $n$ die Anzahl der Beobachtungen ist.^[7]

Siehe auch

Mahalanobis-Abstand

Literatur

Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008

Einzelnachweise

↑ Fumio Hayashi: Econometrics., Princeton University Press., 2000, S. 21–23
↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 236
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 165.
↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
↑ Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237
↑ R. Dennis Cook und Sanford Weisberg: Residuals and Influence in Regression, 1982., New York, Chapman & Hall, ISBN 0-412-24280-X
↑ Kenneth A. Bollen und Robert W. Jackman: Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases in Modern Methods of Data Analysis (1990), Newbury Park, CA, ISBN 0-8039-3366-5, S. 257–9.

[1] Fumio Hayashi: Econometrics., Princeton University Press., 2000, S. 21–23

[2] Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 236

[3] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 165.

[4] Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237

[5] Rencher, Alvin C., und G. Bruce Schaalje: Linear models in statistics., John Wiley & Sons, 2008, S. 237

[6] R. Dennis Cook und Sanford Weisberg: Residuals and Influence in Regression, 1982., New York, Chapman & Hall, ISBN 0-412-24280-X

[7] Kenneth A. Bollen und Robert W. Jackman: Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases in Modern Methods of Data Analysis (1990), Newbury Park, CA, ISBN 0-8039-3366-5, S. 257–9.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Cook-Abstand

Inhaltsverzeichnis

Definition

Erkennen von stark einflussreichen Beobachtungen

Siehe auch

Literatur

Einzelnachweise

Navigationsmenü

Cook-Abstand

Definition

Erkennen von stark einflussreichen Beobachtungen

Siehe auch

Literatur

Einzelnachweise

Navigationsmenü

Suche