Multipler Korrelationskoeffizient

Aus testwiki
Zur Navigation springen Zur Suche springen

Der multiple Korrelationskoeffizient ist in der multivariaten Statistik ein Korrelationskoeffizient, welcher die lineare Abhängigkeit zwischen einer Zufallsvariable und einer Menge anderer Zufallsvariablen misst. Konkret bedeutet das für einen Zufallsvektor (X1,,Xn)T, dass der multiple Korrelationskoeffizient die maximale Korrelation zwischen einer Zufallsvariable Xi für ik und jeder beliebigen linearen Funktion von Xk+1,,Xn ist. Als Spezialfall erhält man den multiplen Korrelationskoeffizient zwischen X1 und X2,,Xn. Im Gegensatz zu den gewöhnlichen Korrelationskoeffizienten liegt der multiple Korrelationskoeffizient zwischen 0 und 1. Der multiple Korrelationskoeffizient wird mit Ri(k+1n) notiert.

Der multiple Korrelationskoeffizient wurde 1896 von Karl Pearson für drei Variablen eingeführt und 1897 von George Udny Yule erweitert.[1]

Definition

Sei 𝐗=(X1,X2,,Xn)T ein Zufallsvektor mit positiv definiter Kovarianzmatrix 𝜮 und 1ik<n.

Wir machen folgende Zerlegung

𝐗=(𝐗1𝐗2),𝜮=(𝜮11𝜮12𝜮21𝜮22),𝐗𝟏=(X1,,Xk)T,𝐗𝟐=(Xk+1,,Xn)T.

Der multiple Korrelationskoeffizient Ri(k+1n) zwischen Xi und Xk+1,,Xn ist die maximale Korrelation zwischen Xi und jeder linearen Funktion 𝜶T𝐗𝟐.

In mathematischen Formeln ausgedrückt[2]

Ri(k+1n):=max𝜶Cov(Xi,𝜶T𝐗𝟐)(Var(Xi)Var(𝜶T𝐗𝟐))1/2=max𝜶𝜶T𝝈i(σii𝜶T𝜮22𝜶)1/2,

wobei 𝝈iT die i-te Reihe von 𝜮12 ist und Var(Xi)=σii.

Wendet man die Cauchy-Schwarz-Ungleichung an

𝜶T𝝈i(σii𝜶T𝜮22𝜶)1/2=𝜶T𝜮221/2𝜮221/2𝝈i(σii𝜶T𝜮22𝜶)1/2(𝜶T𝜮22𝜶)1/2(𝝈iT𝜮221𝝈i)1/2(σii𝜶T𝜮22𝜶)1/2=(𝝈iT𝜮221𝝈iσii)1/2,

so erhält man eine Obergrenze, die erreicht wird, wenn 𝜶=𝜮221𝝈i.

Daraus folgt

Ri(k+1n)=(𝝈iT𝜮221𝝈iσii)1/2.[2][3]

Eigenschaften

  • Es gilt
0Ri(k+1n)1
und Ri(k+1n)=0𝜮12=𝟎.
  • Man kann zeigen, dass wenn die Regressionsfunktion 𝔼[Xi𝐗𝟐] eine lineare Funktion ist, dann ist der multiple Korrelationskoeffizient gerade der Korrelationskoeffizient zwischen Xi und 𝔼[Xi𝐗𝟐].[3][2]
  • Es gilt
1Ri(k+1n)2=det(𝜮i)σiidet(𝜮22), wobei 𝜮i:=(σii𝝈iT𝝈i𝜮ii).[2]

Spezialfall X1 und X2,...,Xn

Möchten wir R1(2n) herleiten, das heißt den multiplen Korrelationskoeffizient zwischen X1 und X2,,Xn, dann machen wir folgende Zerlegung

𝐗=(X1𝐗2),𝜮=(σ11𝝈12T𝝈12𝜮22),

da 𝝈12 ein (n1)×1-dimensionaler Vektor ist, verzichten wir auf die Notation 𝜮12.

Es gilt dann

R1(2n)=(𝝈12T𝜮221𝝈12σ11)1/2.

Multipler Korrelationskoeffizient für eine Stichprobe

Seien 𝐗1,,𝐗N unabhängige Stichproben von 𝐗 und

𝐒=1(N1)i=1N(𝐗i𝐗)(𝐗i𝐗)T

die korrigierte Stichprobenkovarianzmatrix. Dann machen wir folgende Zerlegung

𝐒=(𝐒11𝐒12𝐒21𝐒22)

und der multiple Korrelationskoeffizient einer Stichprobe ist dann

Ri(k+1n)=(𝐬iT𝑺221𝐬isii)1/2,

wobei 𝐬iT die i-te Reihe von 𝐒12 ist.

Wenn eine Normalverteilung zugrunde liegt, dann ist Ri(k+1n) der Maximum-Likelihood-Schätzer von Ri(k+1n).[3]

Literatur

Einzelnachweise