Chi-Quadrat-Verteilung

Aus testwiki
Zur Navigation springen Zur Suche springen

Die Chi-Quadrat-Verteilung bzw. χ2-Verteilung (ältere Bezeichnung: Helmert-Pearson-Verteilung, nach Friedrich Robert Helmert und Karl Pearson) ist eine stetige Wahrscheinlichkeitsverteilung über der Menge der nichtnegativen reellen Zahlen. Üblicherweise ist mit „Chi-Quadrat-Verteilung“ die zentrale Chi-Quadrat-Verteilung gemeint. Die Chi-Quadrat-Verteilung hat einen einzigen Parameter, nämlich die Anzahl der Freiheitsgrade n.

Dichten der Chi-Quadrat-Verteilung mit unterschiedlicher Anzahl an Freiheitsgraden k

Sie ist eine der Verteilungen, die aus der Normalverteilung 𝒩(μ,σ2) abgeleitet werden kann: Sind Z1,...,Zn unabhängige und standardnormalverteilte Zufallsvariablen, so ist die Chi-Quadrat-Verteilung mit n Freiheitsgraden definiert als die Verteilung der Summe Z12++Zn2 der quadrierten Zufallsvariablen. Solche Summen quadrierter Zufallsvariablen treten bei Schätzfunktionen wie der Stichprobenvarianz zur Schätzung der empirischen Varianz auf. Die Chi-Quadrat-Verteilung ermöglicht damit unter anderem ein Urteil über die Kompatibilität eines vermuteten funktionalen Zusammenhangs (Abhängigkeit von der Zeit, Temperatur, Druck etc.) mit empirisch ermittelten Messpunkten. Kann z. B. eine Gerade die Daten erklären, oder braucht man doch eine Parabel oder vielleicht einen Logarithmus? Man wählt verschiedene Modelle aus, und dasjenige mit der besten Anpassungsgüte, dem kleinsten Chi-Quadrat-Wert, bietet die beste Erklärung der Daten.[1][2] So stellt die Chi-Quadrat-Verteilung durch die Quantifizierung der zufälligen Schwankungen die Auswahl verschiedener Erklärungsmodelle auf eine numerische Basis. Außerdem erlaubt sie, wenn man die empirische Varianz bestimmt hat, die Schätzung des Vertrauensintervalls, das den (unbekannten) Wert der Varianz der Grundgesamtheit mit einer gewissen Wahrscheinlichkeit einschließt. Diese und weitere Anwendungen sind weiter unten und im Artikel Chi-Quadrat-Test beschrieben.

Die Chi-Quadrat-Verteilung wurde 1876 eingeführt von Friedrich Robert Helmert, die Bezeichnung stammt von Karl Pearson (1900).[3]

Definition

Dichte und Verteilung von mehreren Chi-Quadrat-verteilten Zufallsgrößen

Sind Z1,,Znstochastisch unabhängige und standardnormalverteilte Zufallsvariablen, so heißt die Verteilung der Zufallsvariablen X mit

X=Z12++Zn2

Chi-Quadrat-Verteilung mit n Freiheitsgraden.[4] Hierfür schreibt man symbolisch

Xχn2oderXχ2(n)

und sagt, dass sie χn2-verteilt ist.

Hinweis: In der Statistik werden oftmals Stichprobenfunktionen, die unter gewissen Bedingungen chi-Quadrat-verteilt sind, mit χ2 bezeichnet.

Eigenschaften

Dichtefunktion

Die Summe quadrierter Größen kann keine negativen Werte annehmen. Deshalb hat die Dichte fn der χn2-Verteilung für x<0 den Wert null. Für x>0 lässt sie sich darstellen als

fn(x)=12n2Γ(n2)xn21exp(x2).[4]

Dabei steht Γ für die Gammafunktion. Die Werte von Γ(n2) kann man rekursiv aus

Γ(12)=π,Γ(1)=1,
Γ(x+1)=xΓ(x)mitx+

berechnen.

Spezialfall: Für die Dichte f2 der χ2-Verteilung mit n=2 Freiheitsgraden gilt für x>0

f2(x)=12exp(x2).

Verteilungsfunktion

Die Verteilungsfunktion kann man mit Hilfe der regularisierten unvollständigen Gammafunktion P(a,x) ausdrücken:

Fn(x)=P(n2,x2).

Wenn n eine natürliche Zahl ist, dann kann die Verteilungsfunktion wie folgt dargestellt werden:

P(n2,x2)={1ex2k=0n/211Γ(k+1)(x2)k falls n gerade,erf(x2)ex2k=0n/211Γ(k+32)(x2)k+12 falls n ungerade,

wobei erf die Fehlerfunktion bezeichnet.

Spezialfall: Für die Verteilungsfunktion F2 der χ2-Verteilung mit n=2 Freiheitsgraden gilt für x>0

F2(x)=1exp(x2).

Reproduktivität

Ist X die Summe der Quadrate von m unabhängigen standardnormalverteilten Zufallsvariablen und Y die Summe der Quadrate von n unabhängigen standardnormalverteilten Zufallsvariablen, so gilt

Xχm2 und Yχn2.

Die Summe X+Y ist dann aber die Summe der Quadrate von m+n unabhängigen standardnormalverteilten Zufallsvariablen, also gilt

X+Yχm+n2.

Die Chi-Quadrat-Verteilung ist also reproduktiv.

Erwartungswert

Der Erwartungswert einer chi-quadrat-verteilten Zufallsvariable mit n Freiheitsgraden ist

E(χn2)=n.

Varianz

Die Varianz einer chi-quadrat-verteilten Zufallsvariable mit n Freiheitsgraden beträgt

Var(χn2)=2n.

Modus

Eine Chi-Quadrat-Verteilung mit n3 Freiheitsgraden hat den Modus n2. Die Dichte der Chi-Quadrat-Verteilungen mit einem und zwei Freiheitsgraden nimmt das Supremum auf dem offenen Intervall (0,) nicht an, die Dichten sind in diesen beiden Fällen aber monoton fallend. Man findet daher auch teils die Bezeichnung Modus 0 für die Chi-Quadrat-Verteilungen mit einem und zwei Freiheitsgraden.

Schiefe

Die Schiefe γm der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist

γm(χn2)=22n.

Die Chi-Quadrat-Verteilung besitzt eine positive Schiefe, d. h., sie ist linkssteil- bzw. rechtsschief. Je höher die Anzahl der Freiheitsgrade n, desto weniger schief ist die Verteilung.

Kurtosis

Die Kurtosis (Wölbung) β2 der Chi-Quadrat-Verteilung mit n Freiheitsgraden ist gegeben durch

β2=3+12n.

Der Exzess γ2 gegenüber der Normalverteilung ergibt sich damit zu  γ2=12n.[5] Daher gilt: Je höher die Anzahl der Freiheitsgrade n, desto geringer der Exzess.

Momenterzeugende Funktion

Die momenterzeugende Funktion für Xχn2 hat die Form[6]

MX(t)=1(12t)n/2.

Charakteristische Funktion

Die charakteristische Funktion für Xχn2 ergibt sich aus der momenterzeugenden Funktion als:

φX(s)=1(12is)n/2.

Entropie

Die Entropie der Chi-Quadrat-Verteilung (ausgedrückt in nats) beträgt

H(X)=ln(2Γ(n2))+(1n2)ψ(n2)+n2,

wobei ψ die Digamma-Funktion bezeichnet.

Nichtzentrale Chi-Quadrat-Verteilung

Wenn die normalverteilten Zufallsvariablen nicht bezüglich ihres Erwartungswertes μi(i=1,,n) zentriert sind (d. h., wenn nicht alle μi=0 sind), erhält man die nichtzentrale Chi-Quadrat-Verteilung. Sie hat als zweiten Parameter neben n den Nichtzentralitätsparameter λ>0.

Seien Zi𝒩(μi,1),i=1,2,,n, so ist

i=1nZi2χ2(n,λ) mit λ=i=1nμi2.

Insbesondere folgt aus Xχ2(n1) und Z𝒩(λ,1), dass X+Z2χ2(n,λ) ist.

Eine zweite Möglichkeit, eine nichtzentrale Chi-Quadrat-Verteilung zu erzeugen, ist als Mischverteilung der zentralen Chi-Quadrat-Verteilung. Dabei ist

χ2(n+2j)=χ2(n,λ),

wenn j𝒫(λ2) aus einer Poisson-Verteilung gezogen wird.

Dichtefunktion

Die Dichtefunktion der nichtzentralen Chi-Quadrat-Verteilung ist

f(x)=exp{12(x+λ)}2n2j=0xn2+j1λj22jΓ(n2+j)j! für x0 , f(x)=0 für x<0 .

Die Summe über j führt auf eine modifizierte Bessel-Funktion erster Gattung Iq(x) . Damit erhält die Dichtefunktion folgende Form:

f(x)=exp{12(x+λ)}x12(n1)λ2(λx)n4In21(λx) für x0.

Erwartungswert und Varianz der nichtzentralen Chi-Quadrat-Verteilung n+λ und 2n+4λ gehen ebenso wie die Dichte selbst bei λ0 in die entsprechenden Ausdrücke der zentralen Chi-Quadrat-Verteilung über.

Verteilungsfunktion

Die Verteilungsfunktion der nichtzentralen Chi-Quadrat-Verteilung kann mit Hilfe der Marcum-Q-Funktion QM(a,b) ausgedrückt werden:[7]

F(x)=1Qn2(λ,x)

Beispiel

Gegeben sind n Messungen einer Größe x, die aus einer normalverteilten Grundgesamtheit stammen. Sei x der empirische Mittelwert der n gemessenen Werte und

s2=1n1k=1n(xkx)2

die korrigierte Stichprobenvarianz.

Dann lässt sich z. B. das Konfidenzintervall für die Varianz der Grundgesamtheit σ2 angeben:

n1χb2s2σ2n1χa2s2

Die Grenzen ergeben sich daraus, dass (n1)s2σ2 wie χn12 verteilt ist.

Konkretes Beispiel: Stichprobe mit n=100 Werten, Varianz s2=1,0 , 95%-Konfidenzintervall:

95 % der Werte sollen sich innerhalb des Intervalls befinden. Es wird also davon ausgegangen, dass je 2,5 % der Werte die obere bzw. untere Intervallgrenze überschreiten dürfen. In diesem Fall wird daher χb2 durch Fn1(χb2)=0,975 und χa2 durch Fn1(χa2)=0,025 bestimmt.

Bei der Berechnung der Grenzen des Konfidenzintervalls in Programmen wird üblicherweise die Inverse Funktion verwendet (Kehrwert der kumulierten Chi-Quadrat-Verteilung): z. B. in Excel oder Numbers die Funktion CHIINV(p,n-1) :

Die obere Intervallgrenze ergibt sich mit s2=1,0 aus:

=CHIINV(0,025; 99) / 99 * s^2 = 1,2971

Die untere Intervallgrenze ergibt sich aus:

=CHIINV(0,975; 99) / 99 * s^2 = 0,7410

Herleitung der Verteilung der Stichprobenvarianz

Sei x1,,xn eine Stichprobe von n Messwerten, gezogen aus einer normalverteilten Zufallsvariablen X mit empirischen Mittelwert x=1ni=1nxi und Stichprobenvarianz s2=1n1i=1n(xix)2 als Schätzfunktionen für Erwartungswert μ und Varianz σ2 der Grundgesamtheit.

Dann lässt sich zeigen, dass (n1)s2σ2=i=1n(xix)2σ2 verteilt ist wie χn12.

Dazu werden nach Helmert[8] die (xi) mittels einer orthonormalen Linearkombination in neue Variablen (yj) transformiert. Die Transformation lautet:

y1=12x112x2
y2=16x1+16x226x3
   
yn1=1n(n1)x1+1n(n1)x2++1n(n1)xn1n1n(n1)xn
yn=1nx1+1nx2++1nxn1+1nxn=nx.

Die neuen unabhängigen Variablen yi sind wie X normalverteilt mit gleicher Varianz σyi2=σxi2=σ2,(i=1,,n), aber mit Erwartungswert E(yi)=0,(i=1,,n1), beides aufgrund der Faltungsinvarianz der Normalverteilung.

Außerdem gilt für die Koeffizienten aij in yi=j=1naijxj (falls j>i+1, ist aij=0) wegen der Orthonormalität i=1naijaik=δjk (Kronecker-Delta) und damit

i=1nyi2=i=1nj=1naijxjk=1naikxk=j=1nk=1nδjkxjxk=j=1nxj2.

Deshalb ergibt sich nun für die Summe der Abweichungsquadrate

(n1)s2=i=1n(xix)2=i=1nxi2nx2=i=1nyi2yn2=i=1n1yi2

und schlussendlich nach Division durch σ2

(n1)s2σ2=i=1n1yi2σ2.

Der Ausdruck auf der linken Seite ist offenbar verteilt wie eine Summe von quadrierten standardnormalverteilten unabhängigen Variablen mit n1 Summanden, wie für χn12 gefordert.

Demnach ist also die Summe Chi-Quadrat-verteilt mit n1 Freiheitsgraden i=1n(xixσ)2χn12, während laut Definition der Chi-Quadrat-Summe i=1n(xiμσ)2χn2. Ein Freiheitsgrad wird hier „verbraucht“, denn aufgrund der Schwerpunkteigenschaft des empirischen Mittels i=1n(xix¯)=0 ist die letzte Abweichung (xnx) bereits durch die ersten (n1) bestimmt. Folglich variieren nur (n1) Abweichungen frei und man mittelt die empirische Varianz deshalb, indem man durch die Anzahl der Freiheitsgrade (n1) dividiert.

Beziehung zu anderen Verteilungen

Beziehung zur Gammaverteilung

Die Chi-Quadrat-Verteilung ist ein Spezialfall der Gammaverteilung. Ist Xχn2, so gilt

X𝒢(n2,12).

Beziehung zur Normalverteilung

Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung
Q=Z12++Zn2χ2(n).
  • Für n30 ist Y=2X2n1 näherungsweise standardnormalverteilt.
  • Für n>100 ist die Zufallsvariable Xn näherungsweise normalverteilt, mit Erwartungswert n und Standardabweichung 2n bzw. bei einer nichtzentralen Chi-Quadrat-Verteilung mit Erwartungswert n+λ und Standardabweichung 2n+4λ.

Beziehung zur Exponentialverteilung

Eine Chi-Quadrat-Verteilung mit 2 Freiheitsgraden ist eine Exponentialverteilung Exp(λ) mit dem Parameter λ=1/2.

Beziehung zur Erlang-Verteilung

Eine Chi-Quadrat-Verteilung mit 2n Freiheitsgraden ist identisch mit einer Erlang-Verteilung Erl(λ,n) mit n Freiheitsgraden und λ=1/2.

Beziehung zur F-Verteilung

Seien X1 und X2 unabhängige Chi-Quadrat-verteilte Zufallsvariablen mit r1 bzw. r2 Freiheitsgraden, dann ist der Quotient

X1/r1X2/r2

F-verteilt mit r1 Zählerfreiheitsgraden und r2 Nennerfreiheitsgraden.[9]

Beziehung zur Poisson-Verteilung

Die Verteilungsfunktionen der Poisson-Verteilung und der Chi-Quadrat-Verteilung hängen auf folgende Weise zusammen:

Die Wahrscheinlichkeit, n oder mehr Ereignisse in einem Intervall zu finden, innerhalb dessen man im Mittel λ Ereignisse erwartet, gleicht der Wahrscheinlichkeit, dass der Wert von χ2n22λ ist. Es gilt nämlich

1Q(n,λ)=P(n,λ),

mit P und Q als regularisierte Gammafunktionen.

Beziehung zur stetigen Gleichverteilung

Ist U gleichverteilt auf dem Intervall [0,1], dann gilt X=2ln(U)χ2(2), denn

P(Xx)=P(Uexp(x/2))=1exp(x/2)=F2(x),x>0.

Sind U1,,Um unabhängig und identisch verteilte Zufallsvariablen mit Uk𝒰(0,1), dann gilt somit

2k=1mln(Uk)χ2(2m).

Herleitung der Dichtefunktion

Die Dichte der Zufallsvariable X=Z12++Zn2, mit Z1,,Zn unabhängig und standardnormalverteilt, ergibt sich aus der gemeinsamen Dichte der Zufallsvariablen Z1,,Zn. Diese gemeinsame Dichte ist das n-fache Produkt der Standardnormalverteilungsdichte:

fZ1,,Zn(z1,,zn)=i=1ne12zi22π=(2π)n2e12(z12++zn2).

Für die gesuchte Dichte gilt:

fn(x)=limh01hP(x<Xx+h)=limh01hK(2π)n2e12(z12++zn2)dz1dzn=(2π)n2ex2limh01hKdz1dzn

mit K={xz12++zn2x+h}.

Im Grenzwert ist die Summe im Argument der Exponentialfunktion gleich x. Man kann zeigen, dass man den Integranden als (2π)n2ex2 vor das Integral und den Limes ziehen kann.

Das verbleibende Integral

Kdz1dzn=Vn(x+h)Vn(x)

entspricht dem Volumen der Schale zwischen der Kugel mit Radius x+h und der Kugel mit Radius x ,

wobei Vn(R)=πn2RnΓ(n2+1) das Volumen der n-dimensionalen Kugel mit Radius R angibt.

Es folgt: limh01hKdz1dzn=dVn(x)dx=πn2xn21Γ(n2)

und nach Einsetzen in den Ausdruck für die gesuchte Dichte: fn(x)=12n2Γ(n2)xn21exp(x2),x>0.

Quantilfunktion

Die Quantilfunktion xp der Chi-Quadrat-Verteilung ist die Lösung der Gleichung p=P(n2,xp2) und damit prinzipiell über die Umkehrfunktion zu berechnen. Konkret gilt hier

xp=2P1(n2,p),

mit P1 als Inverse der regularisierten unvollständigen Gammafunktion. Dieser Wert xp ist in der Quantiltabelle unter den Koordinaten p und n eingetragen.

Quantilfunktion für kleinen Stichprobenumfang

Für wenige Werte n (1, 2, 4) kann man die Quantilfunktion auch alternativ angeben:

n=1:xp=2(Erf1(p))2,
n=2:xp=2ln(1p),
n=4:xp=2(1+W1((1p)/e)),

wobei Erf die Fehlerfunktion, W1(x) den unteren Zweig der Lambertschen W-Funktion bezeichnet und e die Eulersche Zahl.

Näherung der Quantilfunktion für feste Wahrscheinlichkeiten

Für bestimmte feste Wahrscheinlichkeiten p lassen sich die zugehörigen Quantile xp durch die einfache Funktion des Stichprobenumfangs n

xpn+an+sgn(a)n+b+c/n

mit den Parametern a,b,c aus der Tabelle annähern, wobei sgn(a) die Signum-Funktion bezeichnet, die einfach das Vorzeichen ihres Arguments darstellt:

p 0,005 0,01 0,025 0,05 0,1 0,5 0,9 0,95 0,975 0,99 0,995
a −3,643 −3,298 −2,787 −2,34 −1,83 0 1,82 2,34 2,78 3,29 3,63
b 1,8947 1,327 0,6 0,082 −0,348 −0,67 −0,58 −0,15 0,43 1,3 2
c −2,14 −1,46 −0,69 −0,24 0 0,104 −0,34 −0,4 −0,4 −0,3 0

Der Vergleich mit einer χ2-Tabelle zeigt ab n>3 einen relativen Fehler unter 0,4 %, ab n>10 unter 0,1 %. Da die χ2-Verteilung für große n in eine Normalverteilung mit Standardabweichung 2n übergeht, besitzt der Parameter a aus der Tabelle, der hier frei angepasst wurde, bei der entsprechenden Wahrscheinlichkeit p etwa die Größe des 2-fachen des Quantils der Normalverteilung (2Erf1(2p1)), wobei Erf1 die Umkehrfunktion der Fehlerfunktion bedeutet.

Das 95 %-Konfidenzintervall für die Varianz der Grundgesamtheit aus dem Abschnitt Beispiel kann z. B. mit den beiden Funktionen xp aus den Zeilen mit p=0,025χa2 und p=0,975χb2 auf einfache Weise als Funktion von n grafisch dargestellt werden.

Der Median befindet sich in der Spalte der Tabelle mit p=0,5.

Literatur

Vorlage:Wikibooks

Einzelnachweise

  1. R. Barlow: Statistics Wiley, 1989, S. 152 (Goodness of Fit).
  2. Kendall, Stuart: The Advanced Theory Of Statistics Vol. 2 Third Edition, London, 1973, S. 436 (Goodness of Fit).
  3. F. R. Helmert. In: Zeitschrift fuer Math. und Physik 21, 1876, S. 192–219. Karl Pearson: On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably Be Supposed to have Arisen from Random Sampling. In: Philosophical Magazine 5, Band 50, 1900, S. 157–175. Zitiert nach L. Schmetterer: Mathematische Statistik. Springer, Wien 1966, S. 93
  4. 4,0 4,1 Vorlage:Literatur
  5. Wolfram Mathworld
  6. A. C. Davison: Statistical Models, Cambridge University Press 2008, ISBN 1-4672-0331-9, Kapitel 3.2
  7. Albert H. Nuttall: Some Integrals Involving the QM Function. In: IEEE Transactions on Information Theory. Nr. 21, 1975, S. 95–96, Vorlage:DOI.
  8. Helmert. In: Astronomische Nachrichten, 88, 1876, S. 113–132
  9. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York / Chichester / Brisbane / Toronto / Singapore 1988, ISBN 0-471-62414-4, S. 51.

Vorlage:Navigationsleiste Wahrscheinlichkeitsverteilungen