Normalverteilung

Aus testwiki
Zur Navigation springen Zur Suche springen

Vorlage:Infobox Verteilung Die Normal- oder Gauß-Verteilung (nach Carl Friedrich Gauß) ist in der Stochastik ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen. Ihre Wahrscheinlichkeitsdichtefunktion wird auch Gauß-Funktion, gaußsche Normalverteilung, gaußsche Verteilungskurve, Gauß-Kurve, gaußsche Glockenkurve, gaußsche Glockenfunktion, Gauß-Glocke oder schlicht Glockenkurve genannt. Sie hat die Form

f(x)=1σ2πe12(xμσ)2,x

mit dem Erwartungswert μ und der Standardabweichung σ.

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, dem zufolge Verteilungen, die durch additive Überlagerung einer großen Zahl von unabhängigen Einflüssen entstehen, unter schwachen Voraussetzungen annähernd normalverteilt sind.

In der Messtechnik wird häufig eine Normalverteilung angesetzt, um die Streuung von Messwerten zu beschreiben. Die Abweichungen der Messwerte vieler natur-, wirtschafts- und ingenieurwissenschaftlicher Vorgänge vom Erwartungswert lassen sich durch die Normalverteilung in guter Näherung beschreiben (vor allem Prozesse, die in mehreren Faktoren unabhängig voneinander in verschiedene Richtungen wirken).

Zufallsvariablen mit Normalverteilung benutzt man zur Beschreibung zufälliger Vorgänge wie:

Der Erwartungswert kann als Schwerpunkt der Verteilung interpretiert werden. Die Standardabweichung gibt ihre Breite an.

Geschichte

Im Jahre 1733 zeigte Abraham de Moivre in seiner Schrift The Doctrine of Chances im Zusammenhang mit seinen Arbeiten am Grenzwertsatz für Binomialverteilungen eine Abschätzung des Binomialkoeffizienten, die als Vorform der Normalverteilung gedeutet werden kann.[1]

Die für die Normierung der Normalverteilungsdichte zur Wahrscheinlichkeitsdichte notwendige Berechnung des nichtelementaren Integrals

+e12t2dt=2π

gelang Pierre-Simon Laplace im Jahr 1782 (nach anderen Quellen Poisson).

Im Jahr 1809 publizierte Gauß sein Werk Theoria motus corporum coelestium in sectionibus conicis solem ambientium (Vorlage:DeS Theorie der Bewegung der in Kegelschnitten sich um die Sonne bewegenden Himmelskörper), das neben der Methode der kleinsten Quadrate und der Maximum-Likelihood-Schätzung die Normalverteilung definiert. Wiederum Laplace war es, der 1810 den Satz vom zentralen Grenzwert bewies, der die Grundlage der theoretischen Bedeutung der Normalverteilung darstellt und de Moivres Arbeit am Grenzwertsatz für Binomialverteilungen abschloss.

Adolphe Quetelet erkannte schließlich bei Untersuchungen des Brustumfangs von mehreren tausend Soldaten im Jahr 1845 eine verblüffende Übereinstimmung mit der Normalverteilung und brachte die Normalverteilung in die angewandte Statistik.[2]

Zunächst wurde die Normalverteilung als Fehlergesetz (Law of Error) oder Fehlerkurve (error curve) bezeichnet. Die erste unzweideutige Verwendung der Bezeichnung „Normalverteilung“ für die Verteilung mit der Formulierung „Normal Curve of Distribution“ wird Francis Galton (1889)[3] zugeschrieben.[4][5] Der Wissenschaftshistoriker Stephen M. Stigler identifizierte[6] drei frühere – vermutlich voneinander unabhängige – Verwendungen des Wortes normal im Zusammenhang mit der später Normalverteilung genannten Verteilung durch Charles S. Peirce (1873),[7] Francis Galton (1877)[8] und Wilhelm Lexis (1877),[9] dabei werden eher die beobachteten Werte oder Teile der beobachteten Werte als „normal“ bezeichnet.

Vorlage:Anker

Definition

Eine Zufallsvariable X hat eine Normalverteilung mit Erwartungswert μ und Standardabweichung σ bzw. Varianz σ2, wobei μ,σ,σ>0, oft geschrieben als X𝒩(μ,σ2), wenn X die folgende Wahrscheinlichkeitsdichte hat:[10][11]

f(xμ,σ2)=1σ2πe12(xμσ)2.

Eine Zufallsvariable, deren Wahrscheinlichkeitsverteilung eine Normalverteilung ist, heißt normalverteilt. Eine normalverteilte Zufallsvariable heißt auch gaußsche Zufallsvariable.

Eine Normalverteilung mit den Parametern μ=0 und σ2=1 heißt Standardnormalverteilung, standardisierte Normalverteilung[12] oder normierte Normalverteilung.[13] Eine Zufallsvariable, deren Wahrscheinlichkeitsverteilung eine Standardnormalverteilung ist, heißt standardnormalverteilt. Eine standardnormalverteilte Zufallsvariable hat die Dichtefunktion

φ(x)=12πe12x2,

siehe auch Fehlerintegral.

Zur mehrdimensionalen Verallgemeinerung siehe Mehrdimensionale Normalverteilung.

Alternative Definition

Alternativ lässt sich die Normalverteilung auch über ihre charakteristische Funktion definieren:

𝔼[eitX]=eitμ12σ2t2,t.

Diese Definition erweitert die obige Definition zusätzlich um den Fall σ2=0.

Eigenschaften

Erwartungswert und Varianz

Ist X𝒩(μ,σ2), dann gilt für den Erwartungswert

E(X)=12πσ2+xe(xμ)22σ2dx=μ

und für die Varianz

Var(X)=12πσ2+(xμ)2e(xμ)22σ2dx=σ2.

Insbesondere ist der Erwartungswert der Standardnormalverteilung 0, denn für Z𝒩(0,1) gilt

E(Z)=12π+x e12x2dx=0,

da der Integrand integrierbar und punktsymmetrisch ist.

Standardisierung

Eine Zufallsvariable X𝒩(μ,σ2) wird durch Standardisierung in eine standardnormalverteilte Zufallsvariable Z=(Xμ)/σ überführt.

Verteilungsfunktion

Die Wahrscheinlichkeitsdichte einer normalverteilten Zufallsvariable ist nicht elementar integrierbar, sodass Wahrscheinlichkeiten numerisch berechnet werden müssen. Die Wahrscheinlichkeiten können mithilfe einer Standardnormalverteilungstabelle berechnet werden, die eine Standardform verwendet. Dabei bedient man sich der Tatsache, dass die lineare Transformation einer normalverteilten Zufallsvariablen zu einer neuen Zufallsvariable führt, die ebenfalls normalverteilt ist. Konkret heißt das, wenn X𝒩(μ,σ2) und Y=aX+b, wobei a und b Konstanten sind mit a0, dann gilt Y𝒩(aμ+b,a2σ2). Damit bilden Normalverteilungen eine Lage-Skalen-Familie.

Die Verteilungsfunktion der Normalverteilung ist durch

F(x)=1σ2πxe12(tμσ)2dt,x

gegeben. Die Wahrscheinlichkeit, dass X𝒩(μ,σ2) eine Realisierung im Intervall [a,b] hat, ist damit P(X[a,b])=F(b)F(a).

Wenn man durch die Substitution t=σz+μ statt t eine neue Integrationsvariable z:=tμσ einführt, ergibt sich mit μ=0 und σ=1 (gemäß dem oben angeführten Linearitätskriterium)

F(x)=12π(xμ)/σe12z2dz=Φ(xμσ).

Dabei ist Φ die Verteilungsfunktion der Standardnormalverteilung:

Φ(x)=12πxe12t2dt.

Mit der Fehlerfunktion erf lässt sich Φ darstellen als

Φ(x)=12(1+erf(x2)).

Funktionsgraph

Der Graph der Dichtefunktion f(xμ,σ2) bildet eine Gaußsche Glockenkurve und ist achsensymmetrisch mit dem Parameter μ als Symmetriezentrum, der auch den Erwartungswert, den Median und den Modus der Verteilung darstellt. Vom zweiten Parameter σ hängen Höhe und Breite der Wahrscheinlichkeitsdichte ab, die Wendepunkte liegen bei x=μ±σ.

Der Graph der Verteilungsfunktion F ist punktsymmetrisch zum Punkt (μ;0,5). Für μ=0 gilt insbesondere φ(x)=φ(x) und Φ(x)=1Φ(x) für alle x.

Als Wahrscheinlichkeitsverteilung ist die Gesamtfläche unter der Kurve gleich 1. Dass jede Normalverteilung normiert ist, ergibt sich über die lineare Substitution z=xμσ:

+1σ2πe12(xμσ)2dx=12π+e12z2dz=1.

Für die Normiertheit des letzteren Integrals siehe Fehlerintegral.

Momenterzeugende Funktion und höhere Momente

Die momenterzeugende Funktion der 𝒩(μ,σ2)-verteilten Normalverteilung X lautet

mX(t)=exp(μt+σ2t22).

Nach dem stochastischen Moment 1. Ordnung, dem Erwartungswert, und dem zentralen Moment 2. Ordnung, der Varianz, ist die Schiefe das zentrale Moment 3. Ordnung. Es ist unabhängig von den Parametern μ und σ immer den Wert 0. Die Wölbung als zentrales Moment 4. Ordnung ist ebenfalls von μ und σ unabhängig und ist gleich 3. Um die Wölbungen anderer Verteilungen besser einschätzen zu können, werden sie oft mit der Wölbung der Normalverteilung verglichen. Dabei wird die Wölbung der Normalverteilung auf 0 normiert (Subtraktion von 3); diese Größe wird als Exzess bezeichnet.

Die ersten Momente wie sind folgt:

Ordnung Moment zentrales Moment
k E(Xk) E((Xμ)k)
0 1 1
1 μ 0
2 μ2+σ2 σ2
3 μ3+3μσ2 0
4 μ4+6μ2σ2+3σ4 3σ4
5 μ5+10μ3σ2+15μσ4 0
6 μ6+15μ4σ2+45μ2σ4+15σ6 15σ6
7 μ7+21μ5σ2+105μ3σ4+105μσ6 0
8 μ8+28μ6σ2+210μ4σ4+420μ2σ6+105σ8 105σ8

Alle zentralen Momente μn lassen sich durch die Standardabweichung σ darstellen:

μn={0wenn n ungerade(n1)!!σnwenn n gerade

dabei wurde die Doppelfakultät verwendet:

(n1)!!=(n1)(n3)31fu¨rn gerade.

Auch für X𝒩(μ,σ2) kann eine Formel für nicht-zentrale Momente angegeben werden. Dafür transformiert man Z𝒩(0,1) und wendet den binomischen Lehrsatz an.

E(Xk)=E((σZ+μ)k)=j=0k(kj)E(Zj)σjμkj=i=0k/2(k2i)E(Z2i)σ2iμk2i=i=0k/2(k2i)(2i1)!!σ2iμk2i.

Die mittlere absolute Abweichung ist 2πσ0,80σ und der Interquartilsabstand 1,349σ.

Standardabweichung

Intervalle um μ bei der Normalverteilung

Aus der Standardnormalverteilungstabelle ist ersichtlich, dass für normalverteilte Zufallsvariablen jeweils ungefähr

68,3 % der Realisierungen im Intervall μ±σ,
95,4 % im Intervall μ±2σ und
99,7 % im Intervall μ±3σ

liegen. Da in der Praxis viele Zufallsvariablen annähernd normalverteilt sind, werden diese Werte aus der Normalverteilung oft als Faustformel benutzt. So wird beispielsweise σ oft als die halbe Breite des Intervalls angenommen, das die mittleren zwei Drittel der Werte in einer Stichprobe umfasst.

Realisierungen außerhalb der zwei- bis dreifachen Standardabweichung gelten oft als verdächtig, Ausreißer zu sein. Sie können ein Hinweis auf grobe Fehler der Datenerfassung oder auch auf das Nichtvorhandensein einer Normalverteilung sein. Andererseits liegt bei einer Normalverteilung im Durchschnitt ca. jeder 20. Messwert außerhalb der zweifachen Standardabweichung und ca. jeder 370. Messwert außerhalb der dreifachen Standardabweichung, ohne dass es sich dabei um Ausreißer handelt.

Abhängigkeit der Wahrscheinlichkeit P(zZz) einer standardnormalverteilten Zufallsvariablen Z von z[0,4]
Abhängigkeit der Wahrscheinlichkeit P(|Z|>z) einer standardnormalverteilten Zufallsvariablen Z von z[0,6]

Die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable X𝒩(μ,σ2) einen Wert im Intervall [μzσ,μ+zσ] annimmt, ist genau so groß, wie die Wahrscheinlichkeit, dass ein standardnormalverteilte Zufallsvariable Z einen Wert im Intervall [z,z] annimmt, es gilt also

p=P(X[μzσ,μ+zσ])=P(Z[z,z]).[14]

Damit können bestimmte Wahrscheinlichkeitsaussagen für Normalverteilungen mit beliebigen Parametern μ und σ2 auf die Standardnormalverteilung zurückgeführt werden.

Die Wahrscheinlichkeit p kann alternativ durch die Verteilungsfunktion Φ der Standardnormalverteilung oder durch die Fehlerfunktion erf ausgedrückt werden:

p=2Φ(z)1=erf(z/2).[15]

Umgekehrt ist zu einer vorgegebenen Wahrscheinlichkeit p(0,1) die Stelle z, für die p=P(Z[z,z]) gilt, durch

z=Φ1(p+12)=2erf1(p)

gegeben.

Wahrscheinlichkeiten für eine standardnormalverteilte Zufallsvariable Z
z P(Z[z,z]) P(Z[z,z])
0,674490 50 % 50 %
1 68,268 9492 % 31,731 0508 %
1,17741
(Halbwertsbreite)
76,096 8106 % 23,903 1891 %
1,644854 90 % 10 %
2 95,449 9736 % 4,550 0264 %
2,575829 99 % 1 %
3 99,730 0204 % 0,269 9796 %
3,290527 99,9 % 0,1 %
3,890592 99,99 % 0,01 %
4 99,993 666 % 0,006 334 %
4,417173 99,999 % 0,001 %
4,891638 99,9999 % 0,0001 %
5 99,999 942 6697 % 0,000 057 3303 %
5,326724 99,999 99 % 0,000 01 %
5,730729 99,999 999 % 0,000 001 %
6 99,999 999 8027 % 0,000 000 1973 %

Halbwertsbreite

Der Wert der Dichtefunktion der Standardnormalverteilung fällt auf die Hälfte des Maximums, wenn et2/2=12, also bei t=2ln21,177. Die Halbwertsbreite ist damit das 22ln22,355fache der Standardabweichung.

Variationskoeffizient

Aus Erwartungswert μ und Standardabweichung σ der 𝒩(μ,σ2)-Verteilung erhält man unmittelbar den Variationskoeffizienten

VarK=σμ.

Kumulanten

Die kumulantenerzeugende Funktion ist

gX(t)=μt+σ2t22

Damit ist die erste Kumulante κ1=μ, die zweite ist κ2=σ2 und alle weiteren Kumulanten verschwinden.

Charakteristische Funktion

Die charakteristische Funktion für eine standardnormalverteilte Zufallsvariable Z𝒩(0,1) ist

ψZ(t)=e12t2.

Für eine Zufallsvariable X𝒩(μ,σ2) erhält man daraus mit X=σZ+μ:

ψX(t)=E(eit(σZ+μ))=E(eitσZeitμ)=eitμE(eitσZ)=eitμψZ(σt)=exp(itμ12σ2t2).

Invarianz gegenüber Faltung

Die Normalverteilung ist invariant gegenüber der Faltung, d. h., die Summe unabhängiger normalverteilter Zufallsvariablen ist wieder normalverteilt (siehe dazu auch unter stabile Verteilungen bzw. unter unendliche teilbare Verteilungen). Somit bildet die Normalverteilung eine Faltungshalbgruppe in ihren beiden Parametern. Eine veranschaulichende Formulierung dieses Sachverhaltes lautet: Die Faltung einer Gaußkurve der Standardabweichung σa mit einer Gaußkurve der Standardabweichung σb ergibt wieder eine Gaußkurve mit der Standardabweichung

σc=σa2+σb2.

Sind also X,Y zwei unabhängige Zufallsvariablen mit

X𝒩(μX,σX2), Y𝒩(μY,σY2),

so ist deren Summe ebenfalls normalverteilt:

X+Y𝒩(μX+μY,σX2+σY2).

Das kann beispielsweise mit Hilfe von charakteristischen Funktionen gezeigt werden, indem man verwendet, dass die charakteristische Funktion der Summe das Produkt der charakteristischen Funktionen der Summanden ist (vgl. Faltungssatz der Fouriertransformation).

Damit ist jede Linearkombination wieder normalverteilt. Nach dem Satz von Cramér gilt sogar die Umkehrung: Ist eine normalverteilte Zufallsvariable die Summe von unabhängigen Zufallsvariablen, dann sind die Summanden ebenfalls normalverteilt. Man spricht davon, dass die Normalverteilung reproduktiv ist bzw. die Reproduktivitätseigenschaft besitzt.

Die Dichtefunktion der Normalverteilung ist ein Fixpunkt der Fourier-Transformation, d. h., die Fourier-Transformierte einer Gaußkurve ist wieder eine Gaußkurve. Das Produkt der Standardabweichungen dieser korrespondierenden Gaußkurven ist konstant; es gilt die Heisenbergsche Unschärferelation.

Entropie

Eine normalverteilte Zufallsvariable hat die Shannon-Entropie log2(σ2πe).[16][17] Sie hat für gegebenen Erwartungswert und gegebene Varianz die größte Entropie unter allen stetigen Verteilungen.[18]

Anwendung

Beispiel zur Standardabweichung

Die Körpergröße des Menschen ist näherungsweise normalverteilt. Bei einer Stichprobe von 1.284 Mädchen und 1.063 Jungen zwischen 14 und 18 Jahren wurde bei den Mädchen eine durchschnittliche Körpergröße von 166,3 cm (Standardabweichung 6,39 cm) und bei den Jungen eine durchschnittliche Körpergröße von 176,8 cm (Standardabweichung 7,46 cm) gemessen.[19]

Demnach lässt obige Schwankungsbreite erwarten, dass 68,3 % der Mädchen eine Körpergröße im Bereich 166,3 cm ± 6,39 cm und 95,4 % im Bereich 166,3 cm ± 12,8 cm haben, also

  • 16 % [≈ (100 % − 68,3 %)/2] der Mädchen kleiner als 160 cm (und 16 % entsprechend größer als 173 cm) sind und
  • 2,5 % [≈ (100 % − 95,4 %)/2] der Mädchen kleiner als 154 cm (und 2,5 % entsprechend größer als 179 cm) sind.

Für die Jungen lässt sich erwarten, dass 68,3 % eine Körpergröße im Bereich 176,8 cm ± 7,46 cm und 95,4 % im Bereich 176,8 cm ± 14,92 cm haben, also

  • 16 % der Jungen kleiner als 169 cm (und 16 % größer als 184 cm) und
  • 2,5 % der Jungen kleiner als 162 cm (und 2,5 % größer als 192 cm) sind.

Kontaminierte Normalverteilung

Normalverteilung (a) und kontaminierte Normalverteilung (b)

Vorlage:Hauptartikel

Von der Verteilung

P=0,9𝒩(μ,σ2)+0,1𝒩(μ,(10σ)2)

ist die Standardabweichung σ. Die Verteilung ist optisch kaum von der Normalverteilung zu unterscheiden (siehe Bild), aber bei ihr liegen im Intervall μ±σ 92,5 % der Werte. Solche kontaminierten Normalverteilungen sind in der Praxis häufig; das genannte Beispiel beschreibt die Situation, wenn zehn Präzisionsmaschinen etwas herstellen, aber eine davon schlecht justiert ist und mit zehnmal so hohen Abweichungen wie die anderen neun produziert.

Gestutzte Normalverteilung

Vorlage:Hauptartikel Bei der gestutzten Normalverteilung ist die Wahrscheinlichkeitsdichte f außerhalb eines Intervalls [a,b] mit a,b gleich Null. Entsprechend erhöht sich f in dem Intervall, so dass das Integral abf=1 bleibt.

Six Sigma

Vorlage:Hauptartikel Da der Anteil der Werte außerhalb der sechsfachen Standardabweichung mit ca. 2 ppb verschwindend klein wird, gilt ein solches Intervall als gutes Maß für eine nahezu vollständige Abdeckung aller Werte. Das wird im Qualitätsmanagement durch die Methode Six Sigma genutzt, indem die Prozessanforderungen Toleranzgrenzen von mindestens 6σ vorschreiben. Allerdings geht man dort von einer langfristigen Erwartungswertverschiebung um 1,5 Standardabweichungen aus, sodass der zulässige Fehleranteil auf 3,4 ppm steigt. Dieser Fehleranteil entspricht einer viereinhalbfachen Standardabweichung (4,5 σ). Ein weiteres Problem der 6σ-Methode ist, dass die 6σ-Punkte praktisch nicht bestimmbar sind. Bei unbekannter Verteilung (d. h., wenn es sich nicht ganz sicher um eine Normalverteilung handelt) grenzen zum Beispiel die Extremwerte von 1.400.000.000 Messungen ein 75-%-Konfidenzintervall für die 6σ-Punkte ein.[20]

Beziehungen zu anderen Verteilungsfunktionen

Normalverteilung als Grenzverteilung der Binomialverteilung

Die Binomialverteilung ist eine diskrete Verteilung, die sich aus einer Anzahl an Versuchen n ergibt. Jeder einzelne Versuch hat die Wahrscheinlichkeit eines Erfolges p. Die Binomialverteilung B(kp,n) gibt dann die Wahrscheinlichkeit an, dass die n Versuche genau k-mal ein Erfolg war, mit 0kn.

Durch einen Grenzübergang für n ergeben sich die Dichtefunktion einer Normalverteilung aus der Wahrscheinlichkeitsfunktion der Binomialverteilung (lokaler Grenzwertsatz von Moivre-Laplace) und die Verteilungsfunktion einer Normalverteilung aus der Verteilungsfunktion der Binomialverteilung (globaler Grenzwertsatz von Moivre-Laplace). Dies ist eine Rechtfertigung dafür, die Binomialverteilung mit den Parametern n und p für hinreichend große n durch die Normalverteilung 𝒩(np,np(1p)) zu approximieren.

Approximation der Binomialverteilung durch die Normalverteilung

Vorlage:Hauptartikel Die Normalverteilung kann zur Approximation der Binomialverteilung verwendet werden, wenn der Stichprobenumfang hinreichend groß und in der Grundgesamtheit der Anteil der gesuchten Eigenschaft weder zu groß noch zu klein ist (Satz von Moivre-Laplace, zentraler Grenzwertsatz, zur experimentellen Bestätigung siehe auch unter Galtonbrett).

Ist ein Bernoulli-Versuch mit n voneinander unabhängigen Stufen (bzw. Zufallsexperimenten) mit einer Erfolgswahrscheinlichkeit p gegeben, so lässt sich die Wahrscheinlichkeit für k Erfolge allgemein durch P(X=k)=(nk)pk(1p)nk,k=0,1,,n berechnen (Binomialverteilung).

Diese Binomialverteilung kann durch eine Normalverteilung approximiert werden, wenn n hinreichend groß und p weder zu groß noch zu klein ist. Als Faustregel dafür gilt np(1p)9. Für den Erwartungswert μ und die Standardabweichung σ gilt dann:

μ=np und σ=np(1p).

Damit gilt für die Standardabweichung σ3.

Falls diese Bedingung nicht erfüllt sein sollte, ist die Ungenauigkeit der Näherung immer noch vertretbar, wenn gilt: np4 und zugleich n(1p)4.

Folgende Näherung ist dann brauchbar:

P(x1Xx2)=k=x1x2(nk)pk(1p)nkBVΦ(x2+0,5μσ)Φ(x10,5μσ)NV.

Bei der Normalverteilung wird die untere Grenze um 0,5 verkleinert und die obere Grenze um 0,5 vergrößert, um eine bessere Approximation gewährleisten zu können. Dies nennt man auch „Stetigkeitskorrektur“. Nur wenn σ einen sehr hohen Wert besitzt, kann auf sie verzichtet werden.

Da die Binomialverteilung diskret ist, muss auf einige Punkte beim Rechnen mit einer binomialverteilten Zufallsvariablen X geachtet werden:

  • Der Unterschied zwischen < oder (sowie zwischen größer und größer gleich) muss beachtet werden (was ja bei der Normalverteilung nicht der Fall ist). Deshalb muss bei P(X<x) die nächstkleinere natürliche Zahl gewählt werden, d. h.
P(X<x)=P(Xx1) bzw. P(X>x)=P(Xx+1),
damit mit der Normalverteilung weitergerechnet werden kann.
Zum Beispiel: P(X<70)=P(X69)
  • Außerdem ist
P(Xx)=P(0Xx)
P(Xx)=P(xXn)
P(X=x)=P(xXx) (unbedingt mit Stetigkeitskorrektur)
und lässt sich somit durch die oben angegebene Formel berechnen.

Der große Vorteil der Approximation liegt darin, dass sehr viele Stufen einer Binomialverteilung sehr schnell und einfach bestimmt werden können.

Beziehung zur Cauchy-Verteilung

Der Quotient von zwei stochastisch unabhängigen 𝒩(0,1)-standardnormalverteilten Zufallsvariablen ist Cauchy-verteilt.

Beziehung zur Chi-Quadrat-Verteilung

Das Quadrat einer standardnormalverteilten Zufallsvariablen hat eine Chi-Quadrat-Verteilung mit einem Freiheitsgrad. Also: Wenn Z𝒩(0,1), dann Z2χ2(1). Weiterhin gilt: Wenn χ2(r1),χ2(r2),,χ2(rn) gemeinsam stochastisch unabhängige Chi-Quadrat-verteilte Zufallsvariablen sind, dann gilt

Y=χ2(r1)+χ2(r2)++χ2(rn)χ2(r1++rn).

Daraus folgt mit unabhängig und standardnormalverteilten Zufallsvariablen Z1,Z2,,Zn:[21]

Y=Z12++Zn2χ2(n)

Weitere Beziehungen sind:

  • Die Summe Xn1=1σ2i=1n(ZiZ)2 mit Z:=1ni=1nZi und n unabhängigen normalverteilten Zufallsvariablen Zi𝒩(μ,σ2),i=1,,n genügt einer Chi-Quadrat-Verteilung Xn1χn12 mit (n1) Freiheitsgraden.
  • Die Chi-Quadrat-Verteilung wird zur Konfidenzschätzung für die Varianz einer normalverteilten Grundgesamtheit verwendet.

Beziehung zur Rayleigh-Verteilung

Der Betrag Z=X2+Y2 zweier unabhängiger normalverteilter Zufallsvariablen X,Y, jeweils mit Mittelwert μX=μY=0 und gleichen Varianzen σX2=σY2=σ2, ist Rayleigh-verteilt mit Parameter σ>0.

Beziehung zur logarithmischen Normalverteilung

Ist die Zufallsvariable X normalverteilt mit 𝒩(μ,σ2), dann ist die Zufallsvariable Y=eX logarithmisch-normalverteilt, also Y𝒩(μ,σ2).

Die Entstehung einer logarithmischen Normalverteilung ist auf multiplikatives, die einer Normalverteilung auf additives Zusammenwirken vieler Zufallsvariablen zurückführen.

Beziehung zur F-Verteilung

Wenn die stochastisch unabhängigen und normalverteilten Zufallsvariablen X1(1),X2(1),,Xn1(1) und X1(2),X2(2),,Xn2(2) die Parameter

E(Xi(1))=μ1,Var(Xi(1))=σ12für i=1,,n1

und

E(Xi(2))=μ2,Var(Xi(2))=σ22für i=1,,n2

besitzen, dann unterliegt die Zufallsvariable

Yn11,n21:=σ22(n21)i=1n1(Xi(1)X(1))2σ12(n11)j=1n2(Xi(2)X(2))2

einer F-Verteilung mit ((n11,n21)) Freiheitsgraden. Dabei sind

X(1)=1n1i=1n1Xi(1),X(2)=1n2i=1n2Xi(2).

Beziehung zur studentschen t-Verteilung

Wenn die stochastisch unabhängigen Zufallsvariablen X1,X2,,Xn identisch normalverteilt sind mit den Parametern μ und σ, dann unterliegt die stetige Zufallsvariable

Yn1=XμS/n

mit dem Stichprobenmittel X=1ni=1nXi, der Stichprobenvarianz S2=1n1i=1n(XiX)2 und S:=S2 einer studentschen t-Verteilung mit (n1) Freiheitsgraden.

Für eine zunehmende Anzahl an Freiheitsgraden nähert sich die studentsche t-Verteilung der Normalverteilung immer näher an. Als Faustregel gilt, dass man ab ca. df>30 die studentsche t-Verteilung bei Bedarf durch die Normalverteilung approximieren kann.

Die studentsche t-Verteilung wird zur Konfidenzschätzung für den Erwartungswert einer normalverteilten Zufallsvariable bei unbekannter Varianz verwendet.

Testen auf Normalverteilung

Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung
Eine χ²-verteilte Zufallsvariable mit 5 Freiheitsgraden wird auf Normalverteilung getestet. Für jeden Stichprobenumfang werden 10.000 Stichproben simuliert und anschließend jeweils 5 Anpassungstests zu einem Niveau von 5 % durchgeführt.

Um zu überprüfen, ob vorliegende Daten normalverteilt sind, können unter anderen folgende Methoden und Tests angewandt werden:

Die Tests haben unterschiedliche Eigenschaften hinsichtlich der Art der Abweichungen von der Normalverteilung, die sie erkennen. So erkennt der Kolmogorov-Smirnov-Test Abweichungen in der Mitte der Verteilung eher als Abweichungen an den Rändern, während der Jarque-Bera-Test ziemlich sensibel auf stark abweichende Einzelwerte an den Rändern („schwere Ränder“) reagiert.

Beim Lilliefors-Test muss im Gegensatz zum Kolmogorov-Smirnov-Test nicht standardisiert werden, d. h., μ und σ der angenommenen Normalverteilung dürfen unbekannt sein.

Mit Hilfe von Quantil-Quantil-Diagrammen bzw. Normal-Quantil-Diagrammen ist eine einfache grafische Überprüfung auf Normalverteilung möglich.
Mit der Maximum-Likelihood-Methode können die Parameter μ und σ der Normalverteilung geschätzt und die empirischen Daten mit der angepassten Normalverteilung grafisch verglichen werden.

Erzeugung normalverteilter Zufallszahlen

Alle folgenden Verfahren erzeugen standardnormalverteilte Zufallszahlen. Durch lineare Transformation lassen sich hieraus beliebige normalverteilte Zufallszahlen erzeugen: Ist die Zufallsvariable x𝒩(0,1)-verteilt, so ist ax+b schließlich 𝒩(b,a2)-verteilt.

Box-Muller-Methode

Nach der Box-Muller-Methode lassen sich zwei unabhängige, standardnormalverteilte Zufallsvariablen X und Y aus zwei unabhängigen, gleichverteilten Zufallsvariablen U1,U2U(0,1), sogenannten Standardzufallszahlen, simulieren:

X=cos(2πU1)2lnU2

und

Y=sin(2πU1)2lnU2.

Polar-Methode

Vorlage:Hauptartikel

Die Polar-Methode von George Marsaglia ist auf einem Computer schneller, da sie keine Auswertungen von trigonometrischen Funktionen benötigt:

  1. Erzeuge zwei voneinander unabhängige, im Intervall [1,1] gleichverteilte Zufallszahlen u1 und u2
  2. Berechne q=u12+u22. Falls q=0 oder q1, gehe zurück zu Schritt 1.
  3. Berechne p=2lnqq.
  4. xi=uip für i=1,2 liefert zwei voneinander unabhängige, standardnormalverteilte Zufallszahlen x1 und x2.

Ziggurat-Algorithmus

Der Ziggurat-Algorithmus, der ebenfalls von George Marsaglia entwickelt wurde, ist effizienter als die Box-Muller-Methode.[22] Er ist der voreingestellte Algorithmus, mit dem in Matlab und Octave normalverteilte Zufallszahlen erzeugt werden.[23][24]

Verwerfungsmethode

Normalverteilungen lassen sich mit der Verwerfungsmethode (siehe dort) simulieren.

Inversionsmethode

Die Normalverteilung lässt sich auch mit der Inversionsmethode berechnen.

Mit der [1,1]-gleichverteilten Verteilung X wird über die Inverse Verteilungsfunktion die Standardnormalverteilung erzeugt:

Y=𝕖𝕣𝕗1(2πX)

Da die inverse Verteilungsfunktion nicht explizit mit elementaren Funktionen darstellbar ist, muss man auf eine komplexere numerische Darstellung zurückgreifen, mit relativ hohem Aufwand. Reihenentwicklungen sind in der Literatur zu finden.[25]

Zwölferregel

Die Zwölferregel liefert keine exakte Normalverteilung, diese wird nur genähert. Der zentrale Grenzwertsatz besagt, dass sich unter bestimmten Voraussetzungen die Verteilung der Summe unabhängig und identisch verteilter Zufallszahlen einer Normalverteilung nähert.

Nach der Zwölferregel wird die Standardnormalverteilung durch die Verteilung der Zufallsvariablen Y6 approximiert, wobei Y die Summe von zwölf stochastisch unabhängigen, im Intervall [0,1] gleichverteilten Zufallszahlen X1,,X12 ist. Der Erwartungswert von Y ist 6 und die Varianz von Y ist 1, sodass die Zufallsvariable Y6 den Erwartungswert 0 und die Varianz 1 hat. Dies führt für viele Anwendungen zu einer akzeptablen Approximation einer Standardnormalverteilung durch die Verteilung der Zufallsvariablen Y6. Das Verfahren ist allerdings weder effizient noch wird eine echte Normalverteilung erreicht.

Zudem ist die geforderte Unabhängigkeit der zwölf Zufallsvariablen Xi bei den immer noch häufig verwendeten Linearen Kongruenzgeneratoren (LKG) nicht garantiert. Im Gegenteil wird vom Spektraltest für LKG meist nur die Unabhängigkeit von maximal vier bis sieben der Xi garantiert. Für numerische Simulationen ist die Zwölferregel daher sehr bedenklich und sollte, wenn überhaupt, dann ausschließlich mit aufwändigeren, aber besseren Pseudo-Zufallsgeneratoren wie z. B. dem Mersenne-Twister (Standard in Python, GNU R) oder WELL genutzt werden. Andere, sogar leichter zu programmierende Verfahren sind daher der Zwölferregel vorzuziehen.

Anwendungen außerhalb der Wahrscheinlichkeitsrechnung

In der Statistik ist die Normalverteilung eine wichtige Wahrscheinlichkeitsverteilung. Sie wird verwendet zur Modellierung einer Merkmalsverteilung in der Grundgesamtheit und zur Modellierung der Verteilung von Messfehlern. Außerdem entsteht sie als asymptotische Verteilung von Schätzfunktionen und allgemeineren Statistiken, siehe dazu zentrale Grenzwertsätze der Statistik.

Die Normalverteilung lässt sich auch zur Beschreibung nicht direkt stochastischer Sachverhalte verwenden, etwa in der Physik für das Amplitudenprofil der Gauß-Strahlen und andere Verteilungsprofile.

Zudem findet sie Verwendung in der Gabor-Transformation im Bereich der Signal- und Bildbearbeitung.

Siehe auch

Literatur

Vorlage:Commonscat Vorlage:Wikibooks Vorlage:Wikibooks

Einzelnachweise

  1. Vorlage:Literatur
  2. Vorlage:Literatur
  3. Vorlage:Literatur
  4. Vorlage:Literatur
  5. Vorlage:Internetquelle
  6. Vorlage:Literatur
  7. Vorlage:Literatur
  8. Vorlage:Literatur
  9. Vorlage:Literatur
  10. Bronstein: Taschenbuch der Mathematik. Kap. 16, Wahrscheinlichkeitsrechnung und mathematische Statistik.
  11. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee: Introduction to the Theory and Practice of Econometrics. 1988, S. 47.
  12. Vorlage:Literatur
  13. Vorlage:Literatur
  14. Es gilt
    P(μzσXμ+zσ)=P(zXμσz)=P(zZz).
    Die letzte Gleichung gilt, da die standardisierte Zufallsvariable (Xμ)/σ standardnormalverteilt ist.
  15. Es gilt
    P(Z[z,z])=P(zZz)=z+zφ(t)dt=Φ(z)Φ(z)=Φ(z)(1Φ(z))=2Φ(z)1.
    Das vorletzte Gleichheitszeichen gilt, da die Standardnormalverteilung symmetrisch zu Null ist.
  16. Vorlage:Literatur
  17. Vorlage:Literatur
  18. Vorlage:Literatur
  19. Mareke Arends: Epidemiologie bulimischer Symptomatik unter 10-Klässlern in der Stadt Halle. Dissertation. Martin-Luther-Universität Halle-Wittenberg, 2005, Tabelle 9, S. 30. Vorlage:URN
  20. H. Schmid, A. Huber: Measuring a Small Number of Samples and the 3σ Fallacy. (PDF; 1,6 MB) In: IEEE Solid-State Circuits Magazine, Band 6, Nr. 2, 2014, S. 52–58, doi:10.1109/MSSC.2014.2313714.
  21. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee: Introduction to the Theory and Practice of Econometrics. 1988, S. 49.
  22. Vorlage:Literatur
  23. Vorlage:Internetquelle
  24. Vorlage:Internetquelle
  25. William B. Jones, W. J. Thron: Continued Fractions: Analytic Theory and Applications. Addison-Wesley, 1980.

Vorlage:Navigationsleiste WahrscheinlichkeitsverteilungenVorlage:Normdaten