Mallows’ Cp-Statistik

Aus testwiki
Version vom 6. Dezember 2020, 18:48 Uhr von imported>Jbergner (Einleitung)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Vorlage:Belege Mallows’ Cp-Statistik, benannt nach Colin Lingwood Mallows, ist ein globales Gütemaß, das die Güte der Anpassung einer Regression bewertet. Es wird vor allem im Kontext einer Modellselektion beziehungsweise einer Variablenselektion verwendet, bei der es Ziel ist, die beste Untermenge der gesamten Prädiktoren zu finden, die die beste Vorhersage liefern. Ein kleiner Wert von Cp bedeutet, dass das Model relativ präzise ist.

Im Spezialfall einer linearen Regression ist Mallows’ Cp-Statistik äquivalent zum AIC (Akaike-Informationskriterium).

Definition und Eigenschaften

Mallows’ Cp-Statistik adressiert das Problem der Überanpassung eines Modells, bei der die Residuenquadratsumme immer kleiner wird, je mehr Variablen man zu dem Modell hinzufügt. Möchte man also das Modell auswählen, welches die kleinste Residuenquadratsumme besitzt, wird man immer das Modell mit allen Variablen wählen.

Mallows’ Cp-Statistik nutzt stattdessen den mittleren quadratischen Prognosefehler (Vorlage:EnS mean squared prediction error, kurz: MSPE):

Ej(Y^jE(YjXj))2/σ2,

wobei Y^j der angepasste Wert aus einem Regressionsmodell mit j Variablen, E(YjXj) der Erwartungswert dieses Falls und σ2 die Varianz der Fehlerterme ist. Der mittlere quadratische Prognosefehler wird nicht automatisch kleiner, je mehr Variablen man zum Modell hinzufügt.

Werden p Prädiktoren aus einer Gesamtmenge von K>p ausgewählt, dann ist die Cp-Statistik für diese Prädiktoren für gewöhnlich definiert als:

Cp=SQRpS2N+2p,

wobei

  • Y^pder vorhergesagte Wert der i-ten Beobachtung mit p Prädiktoren,
  • und N die Anzahl der Beobachtungen ist.