Normal-Approximation: Unterschied zwischen den Versionen

Aus testwiki
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
 
(kein Unterschied)

Aktuelle Version vom 5. Dezember 2024, 21:23 Uhr

Die Normal-Approximation ist eine Methode der Wahrscheinlichkeitsrechnung, um die Binomialverteilung für große Stichproben durch die Normalverteilung anzunähern. Hierbei handelt es sich um eine Anwendung des Satzes von Moivre-Laplace und damit auch um eine Anwendung des Zentralen Grenzwertsatzes.

Formulierung

Für eine binomialverteilte Zufallsvariable SnBin(n,p) mit dem Erwartungswert μn:=𝔼[Sn]=np und der Standardabweichung σn:=Var[Sn]=np(1p)>0 gilt nach dem Satz von Moivre-Laplace

limn(P(Snx)Φ(xμnσn))=0,x,,

wobei Φ die Wahrscheinlichkeitsverteilungsfunktion der Standardnormalverteilung bezeichnet.

Diesen asymptotischen Zusammenhang verwendet man zur Rechtfertigung der Approximation der Verteilungsfunktion von Sn durch die Verteilungsfunktion der Normalverteilung 𝒩(μn,σn2) für endliches, aber hinreichend große n, d. h.

P(Snx)Φ(xμnσn),x.

Mit dieser Approximation der Verteilungsfunktion erhält man für k1,k2{0,1,,n} mit k1<k2

P(k1<Snk2)=P(Snk2)P(Snk1)BinomialverteilungΦ(k2μnσn)Φ(k1μnσn)Normalverteilung.

Eine exakte Berechnung der Wahrscheinlichkeit würde dagegen durch

P(k1<Snk2)=k=k1+1k2(nk)pk(1p)nk

erfolgen.

Güte der Approximation

Für viele Anwendungen gilt die Näherung als hinreichend gut, falls np(1p)9 gilt.[1][2][3] Falls dies nicht gilt, so sollte zumindest np5 und n(1p)5 gelten.[4][5] Je asymmetrischer die Binomialverteilung ist, d. h. je größer die Differenz zwischen p und 1p ist, umso größer sollte n sein.

Für p nahe an 0 ist zur Näherung die Poisson-Approximation besser geeignet. Dabei wird die Binomialverteilung Bin(n,p) durch eine Poissonverteilung mit dem Parameter np approximiert. Für p nahe an 1 sind beide Approximationen schlecht, dann kann jedoch Sn=nSn statt Sn betrachtet werden, d. h. bei der Binomialverteilung werden Erfolge und Misserfolge vertauscht. Sn ist wieder binomialverteilt mit Parametern n und 1p und kann daher mit der Poisson-Approximation angenähert werden.

Stetigkeitskorrektur

Mit der Stetigkeitskorrektur wird eine verbesserte Approximation von Wahrscheinlichkeiten der Binomialverteilung Bin(n,p) berechneten Wahrscheinlichkeiten durch die Wahrscheinlichkeiten aus der Normalverteilungsapproximation 𝒩(μ,σ2) mit den Parametern μ=np und σ2=np(1p) und der Verteilungsfunktion xΦ((xμ)/σ) angestrebt.

Die Grundidee ist, den n+1 Stellen 0,1,,n der Binomialverteilung die Wahrscheinlichkeiten der Normalverteilung in den n+1 Intervallen

Ik={(,k+1/2)für k=0(k1/2,k+1/2)für k=1,,n1(k1/2,)für k=n

zuzuordnen. Für X𝒩(μ,σ2) gilt dann

P(XIk)={Φ(k+1/2μσ)für k=0Φ(k+1/2μσ)Φ(k1/2μσ)für k=1,,n11Φ(k1/2μσ)für k=n

Für einen Wert k{0,1,,n} ergeben sich mit Verwendung der Stetigkeitskorrektur die Approximationen

P(Sn=k)Φ(k+1/2μσ)Φ(k1/2μσ),
P(Snk)Φ(k+1/2μσ)

und

P(Snk)1Φ(k1/2μσ).

Für zwei Werte k1,k2{0,1,,n} mit k1k2 ergibt sich mit Verwendung der Stetigkeitskorrektur die Approximation

P(k1Snk2)Φ(k2+0,5μσ)Φ(k10,5μσ).

Beispiele

Beispiel 1

Ein fairer Würfel wird 1000 Mal geworfen. Gesucht ist die Wahrscheinlichkeit, dass mindestens 100 und höchstens 150 Mal die Sechs gewürfelt wird.

  • Berechnung mit Binomialverteilung
Die Zufallsvariable S1000, die die zufällige Anzahl der gewürfelten Sechsen bei 1000 Versuchen beschreibt, ist binomialverteilt mit den Parametern n=1000 und p=1/6, es gilt also S1000Bin(1000,1/6).[6] Die gesuchte Wahrscheinlichkeit ist daher
P(100S1000150)=k=100150(1000k)(16)k(56)1000k0,0837.
Mit einer Wahrscheinlichkeit von ca. 8,4 % wird also bei 1000 Versuchen zwischen 100 und 150 Mal die Sechs gewürfelt.
  • Berechnung mit Normal-Approximation
Es ist np(1p)=10001656=138,8¯>9. Entsprechend der Faustformel gilt die approximierte Lösung also ausreichend genau. Die beiden Parameter für die Approximation der Binomialverteilung durch eine Normalverteilung sind μ=np=1000/6 und σ=np(1p)=5000/36.
Die Approximation ohne Stetigkeitskorrektur, wobei die Verteilungsfunktion der Binomialverteilung durch die Verteilungsfunktion einer Normalverteilung mit denselben Parametern approximiert wird, ist
P(100S1000150)=P(S1000150)P(S100099)Φ(150μσ)Φ(99μσ)Φ(1,4142)Φ(5,74171)1Φ(1,4142)0,0786
  • Berechnung mit Normal-Approximation und Stetigkeitskorrektur
Die Approximation mit Stetigkeitskorrektur ist
P(100S1000150)Φ(150+0,5μσ)Φ(1000,5μσ)Φ(1,3718)Φ(5,6993)1Φ(1,3718)0,0851

Die Werte Φ(z) können numerisch bestimmt werden oder aus Tabelle abgelesen werden, da keine explizite Stammfunktion existiert. Die approximierte Lösung ist häufig numerisch günstiger, da keine umfangreichen Berechnungen der Binomialkoeffizienten durchgeführt werden müssen.

Beispiel 2

Plot der Dichte der Normalverteilung mit μ = 12 und σ = 3 und der Binomialverteilung mit n = 48 und p = 1/4

Gegeben sei eine binomialverteilte Zufallsvariable X mit den Parametern n=48 und p=14, dann hat X den Erwartungswert np=12 und die Varianz np(1p)=9. Die Binomialverteilung wird durch eine Normalverteilung 𝒩(μ,σ2) mit dem Mittelwert μ=np=12 und der Varianz σ2=np(1p)=9 approximiert.

Nun suchen wir die Antwort auf die Frage: „Wie groß ist die Wahrscheinlichkeit, dass X Werte kleiner oder gleich 3 annimmt?“ bzw. „Wie groß ist die Wahrscheinlichkeit P(0X3)?“ Da 3=μ3σ ist, handelt es sich um eine kleine Wahrscheinlichkeit im linken Verteilungsende, die exakt mit Hilfe der Binomialverteilung oder approximativ aus der Normalverteilung berechnet werden kann. Für diese Fragestellung und Parameterkonstellation ergeben sich folgende Resultate:

  • Berechnung mit der Binomialverteilung
P(0X3)=k=03(48k)(14)k(34)48k0,0007882
  • Abschätzung mit der Normalverteilung
P(0X3)=P(X3)P(X1)Φ(3123)Φ(1123)=Φ(3)Φ(13/3)0,00134990,00000730,001343
P(0X3)Φ(3+0,5123)Φ(00,5123)=Φ(8,5/3)Φ(12,5/3)0,0023030.00000150,00229

Die Berechnung mit der Normalverteilung ohne Stetigkeitskorrektur überschätzt die Wahrscheinlichkeit. Dies ist darauf zurückzuführen, dass die Binomialverteilung bei dieser Parameterkonstellation eine Schiefe aufweist, die dazu führt, dass die Normalverteilung im linken Verteilungsende die entsprechenden Wahrscheinlichkeiten überschätzt und im rechten Verteilungsende überschätzt. Ob dieser Approximationsfehler akzeptabel ist, hängt von der Anwendung und Fragestellung ab. Der absolute Approximationsfehler 0,001343 - 0,0007882 liegt unter 0,001 und kann damit z. B. in solchen statistischen Anwendungsfällen akzeptabel sein, bei denen Konfidenz- und Signifikanzniveaus in einer der groben Stufen α{10%,5%,1%} festgelegt werden. Anderseits ist der relative Approximationsfehler (0,001343 - 0,0007882)/0,0007882 = 70,39 %. Dies kann bei anderen Anwendungen eine unakzeptable Ungenauigkeit der zu bestimmenden Wahrscheinlichkeit sein.

Die Verwendung der Stetigkeitskorrektur verschlechtert bei dieser Konstellation die Approximation durch die Normalverteilung, da durch die Berücksichtigung zusätzlicher Wahrscheinlichkeitsmasse die Überschätzung durch die Normalverteilung weiter verstärkt wird. Das Beispiel zeigt insofern die Problematik einer standardmäßigen Anwendung der Stetigkeitskorrektur, wenn damit die Vorstellung einer gleichmäßigen Verbesserung verbunden ist.

Literatur

  • Hans-Otto Georgii: Stochastik: Einführung in die Wahrscheinlichkeitstheorie und Statistik, 4. Auflage, de Gruyter, 2009, ISBN 978-3-11-021526-7, Vorlage:Doi.
  • Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik. Vieweg, Braunschweig 1988, ISBN 978-3-528-07259-9, Vorlage:Doi.

Einzelnachweise

  1. Vorlage:Literatur
  2. Michael Sachs: Wahrscheinlichkeitsrechnung und Statistik für Ingenieurstudenten an Fachhochschulen. Fachbuchverlag Leipzig, München 2003, ISBN 3-446-22202-2, S. 129–130
  3. Vorlage:Webarchiv, zuletzt abgerufen am 9. Februar 2016.
  4. K.Zirkelbach, W.Schmid; Kommentierte Formelsammlung Statistik I und II. Deskriptive Statistik - Wahrscheinlichkeitsrechnung; Frankfurt(Oder) 2008, S. 29.
  5. Formelsammlung zur Vorlesung Statistik I/II für Statistiker, Mathematiker und Informatiker (WS 08/09); LMU München 2008, S.23, zuletzt abgerufen am 9. Februar 2016.
  6. Etwas "exakter": Zur Modellierung definiert man den Wahrscheinlichkeitsraum (Ω,Σ,P) mit der Ergebnismenge Ω:={0,,1000} der Anzahl der gewürfelten Sechsen. Die σ-Algebra ist dann kanonisch die Potenzmenge der Ergebnismenge Σ:=𝒫(Ω) und die Wahrscheinlichkeitsverteilung die Binomialverteilung P({k}):=Bn,p({k}), wobei n=1000 ist und p=1/6.