Logarithmische Normalverteilung

Aus testwiki
Zur Navigation springen Zur Suche springen

Die logarithmische Normalverteilung (kurz Log-Normalverteilung) ist eine kontinuierliche Wahrscheinlichkeitsverteilung für eine Variable, die nur positive Werte annehmen kann. Sie beschreibt die Verteilung einer Zufallsvariablen X, wenn die mit dem Logarithmus transformierte Zufallsvariable Y=ln(X) normalverteilt ist. Sie bewährt sich als Modell für viele Messgrößen in Naturwissenschaften, Medizin und Technik, beispielsweise für Energien, Konzentrationen, Längen und Mengenangaben.

In Analogie zu einer normalverteilten Zufallsvariablen, die nach dem zentralen Grenzwertsatz als Summe vieler verschiedener Zufallsvariablen aufgefasst werden kann, entsteht eine logarithmisch normalverteilte Zufallsvariable durch das Produkt vieler positiver Zufallsvariablen. Somit ist die Log-Normalverteilung die einfachste Verteilungsart für multiplikative Zufallsprozesse. Da multiplikative Gesetze in den Naturwissenschaften, der Ökonomie und der Technik eine größere Rolle spielen als additive, ist die Log-Normalverteilung in vielen Anwendungen diejenige, die der Theorie am besten entspricht – der zweite Grund, weshalb sie vielfach anstelle der gewöhnlichen, additiven Normalverteilung verwendet werden sollte.

Definition

Dichtefunktion der Log-Normalverteilung (mit μ=0)

Erzeugung

Wenn Z eine standardnormalverteilte Zufallsvariable ist, dann ist X=eμ+σZ=eμ(eZ)σ log-normalverteilt mit den Parametern μ und σ>0, geschrieben als 𝒩(μ,σ2). Alternativ können als Parameter die Größen μ*=eμ und σ*=eσ>1 verwendet werden. μ* ist ein Skalen-Parameter. σ oder ebenso σ* bestimmt die Form der Verteilung.

Wenn X log-normalverteilt ist, dann ist auch Y=aX log-normalverteilt, und zwar mit den Parametern ln(a)+μ und σ respektive aμ* und σ*. Ebenso ist Xb log-normalverteilt, mit den Parametern bμ und bσ respektive (μ*)b und (σ*)b.

Dichtefunktion

Eine stetige, positive Zufallsvariable X unterliegt einer logarithmischen Normalverteilung 𝒩(μ,σ2) mit den Parametern μ und σ,σ>0, wenn die transformierte Zufallsvariable Y=ln(X) einer Normalverteilung 𝒩(μ,σ2) folgt. Ihre Dichtefunktion ist dann

f(x)=12πσxexp((ln(x)μ)22σ2)=1xσφ(ln(x)μσ),x>0,

wobei φ die Dichtefunktion der Standardnormalverteilung bezeichnet.

Verteilungsfunktion

Verteilungsfunktion der Log-Normalverteilung (mit μ=0)

Damit hat die Log-Normalverteilung für x0 die Verteilungsfunktion

F(x)=0xf(t)dt=Φ(ln(x)μσ),

wobei Φ die Verteilungsfunktion der Standardnormalverteilung bezeichnet.

Die Verteilungsfunktion der logarithmischen Normalverteilung erscheint auf logarithmisch geteiltem Wahrscheinlichkeitspapier als Gerade.

Mehrdimensionale log-Normalverteilung

Sei 𝒁𝒩(μ,Σ) ein mehrdimensional (oder multivariat) normalverteilter Zufallsvektor. Dann ist 𝑿=exp(𝒁) (d. h. Xj=exp(Zj)) multivariat log-normalverteilt. Die mehrdimensionale Log-Normalverteilung ist viel weniger bedeutsam als die eindimensionale. Deshalb bezieht sich der nachfolgende Text fast ausschließlich auf den eindimensionalen Fall.

Eigenschaften

Quantile

Ist u(p) das p-Quantil einer Standardnormalverteilung (d. h. Φ(u(p))=p, wobei Φ die Verteilungsfunktion der Standardnormalverteilung sei), so ist das p-Quantil der Log-Normalverteilung gegeben durch

x(p)=eμ+u(p)σ.

Median, multiplikativer Erwartungswert

Der Median der logarithmischen Normalverteilung beträgt demnach μ*=eμ. Er wird auch multiplikativer oder geometrischer Erwartungswert genannt (vgl. geometrisches Mittel). Er ist ein Skalen-Parameter, da μ*(aX)=aμ*(X) gilt.

Multiplikative Standardabweichung

In Analogie zum multiplikativen Erwartungswert ist σ*=eσ die multiplikative oder geometrische Standardabweichung. Sie bestimmt (ebenso wie σ selbst) die Form der Verteilung. Es gilt σ*>1.

Da das multiplikative oder geometrische Mittel einer Stichprobe von lognormalen Beobachtungen (siehe „Parameterschätzung“ unten) selbst log-normalverteilt ist, kann man seine Standardabweichung angeben, sie beträgt (σ*)1/n.

Erwartungswert

Der Erwartungswert der logarithmischen Normalverteilung beträgt

E(X)=eμ+σ22.

Modus

Der Modus, also der häufigste Wert der Verteilung bzw. der Wert, für den die Dichtefunktion ihr Maximum annimmt, beträgt für die logarithmische Normalverteilung

Modus(X)=xD=eμσ2.

Varianz, Standardabweichung, Variationskoeffizient

Die Varianz ergibt sich zu

Var(X)=e2μ+σ2(eσ21).

Für die Standardabweichung ergibt sich

Var(X)=e2μ+σ2(eσ21)=eμ+σ22eσ21.

Aus Erwartungswert und Varianz erhält man unmittelbar den Variationskoeffizienten

VarK(X)=eσ21.

Schiefe

Die Schiefe ergibt sich zu

γm=(eσ2+2)eσ21>0,

d. h., die Log-Normalverteilung ist rechtsschief.

Je größer die Differenz zwischen Erwartungswert und Median, desto ausgeprägter ist i. a. die Schiefe einer Verteilung. Hier unterscheiden sich diese Parameter um den Faktor eσ2/2. Die Wahrscheinlichkeit für extrem große Ausprägungen ist also bei der Log-Normalverteilung mit großem σ hoch.

Momente

Es existieren alle Momente und es gilt:

E(Xn)=enμ+n2σ22,n.

Die momenterzeugende Funktion und die charakteristische Funktion existieren für die Log-Normalverteilung nicht in expliziter Form.

Die Lognormalverteilung ist ein Beispiel einer Wahrscheinlichkeitsverteilung, die durch die Angabe aller Momente nicht charakterisiert ist, da es andere Wahrscheinlichkeitsverteilungen mit denselben Momenten gibt.[1]

Entropie

Die Entropie der logarithmischen Normalverteilung (ausgedrückt in nats) beträgt

μ+12ln(2πeσ2).

Multiplikation von unabhängigen, log-normalverteilten Zufallsvariablen

Multipliziert man zwei unabhängige, log-normalverteilte Zufallsvariable X1 und X2, so ergibt sich wieder eine log-normalverteilte Zufallsvariable mit den Parametern μ=μ1+μ2 und σ, wobei σ2=σ12+σ22. Entsprechendes gilt für das Produkt von n solchen Variablen.

Grenzwertsatz

Das geometrische Mittel von n unabhängigen, gleich verteilten, positiven Zufallsvariablen zeigt für n genähert eine Log-Normalverteilung, die immer mehr einer gewöhnlichen Normalverteilung gleicht, da σ abnimmt.

Erwartungswert und Kovarianzmatrix einer mehrdimensionalen Log-Normalverteilung

Der Erwartungswert-Vektor ist

E[𝑿]i=eμi+12Σii

und die Kovarianzmatrix

Var[𝑿]ij=eμi+μj+12(Σii+Σjj)(eΣij1).[2]

Beziehungen zu anderen Verteilungen

Beziehung zur Normalverteilung

Der Logarithmus einer logarithmisch normalverteilten Zufallsvariablen ist normalverteilt. Genauer: Ist Y eine 𝒩(μ,σ2)-verteilte reelle Zufallsvariable (d. h. normalverteilt mit Erwartungswert μ und Varianz σ2), so ist die Zufallsvariable X=eY log-normalverteilt mit diesen Parametern μ und σ.

Wenn σ0 und damit σ*1 geht, geht die Form der Log-Normalverteilung gegen diejenige einer gewöhnlichen Normalverteilung.

Verteilung mit schweren Rändern

Die Verteilung gehört zu den Verteilungen mit schweren Rändern.

Parameterschätzung und Statistik

Parameterschätzung

Die Schätzung der Parameter aus einer Stichprobe von Beobachtungen erfolgt über die Bestimmung von Mittelwert und (quadrierter) Standardabweichung der logarithmierten Werte:

μ^=1ni=1nln(Xi),σ^2=1n1i=1n(ln(Xi)μ^)2.

Die Schätzung der multiplikativen Parameter erfolgt durch μ^*=exp(μ^) und σ^*=exp(σ^). μ^* ist das geometrische Mittel. Seine Verteilung ist log-normal mit multiplikativem Erwartungswert μ* und geschätzter multiplikativer Standardabweichung (besser als multiplikativer Standardfehler bezeichnet) SEM*=(σ^*)1/n.

Wenn keine Einzelwerte vorliegen, sondern nur der Mittelwert X¯ und die empirische Varianz var^ der nicht logarithmierten Werte bekannt sind, erhält man passende Parameterwerte über

σ^2=ln(var^X¯2+1)
μ^=ln(X¯)σ^22 oder direkt μ^=ln(X¯2 1var^+X¯2).

Statistik

Allgemein erfolgt die statistische Analyse von log-normalverteilten Größen am einfachsten und Erfolg versprechendsten so, dass die Größen logarithmiert werden und auf diese transformierten Werte die Methoden verwendet werden, die auf der gewöhnlichen Normalverteilung beruhen. Im Bedarfsfall werden dann die Ergebnisse, beispielsweise Vertrauens- oder Vorhersage-Intervalle, in die ursprüngliche Skala zurücktransformiert.

Grundlegendes Beispiel dafür ist die Berechnung von Streuungs-Intervallen. Da für eine gewöhnliche Normalverteilung in einem Bereich von μ±σ etwa 2/3 (genauer 68 %) und in μ±2σ 95 % der Wahrscheinlichkeit enthalten sind, gilt für die Log-Normalverteilung:

Das Intervall  [μ*/σ*,μ*σ*]  enthält 2/3
und das Intervall  [μ*/(σ*)2,μ*(σ*)2]  enthält 95 %

der Wahrscheinlichkeit (und also etwa diese Prozentzahl der Beobachtungen einer Stichprobe). Die Intervalle können in Analogie zu μ±σ als μ*/σ* und μ*/(σ*)2 notiert werden.

In graphischen Darstellungen (untransformierter) Beobachtungen sollten deshalb solche asymmetrische Intervalle gezeigt werden.[3][4]

Anwendungen

Variation in vielen natürlichen Phänomenen lässt sich gut mit der Log-Normalverteilung beschreiben. Dies kann erklärt werden durch die Vorstellung, dass kleine prozentuale Abweichungen zusammenwirken, die einzelnen Effekte sich also multiplizieren. Bei Wachstumsprozessen ist dies besonders naheliegend. Zudem bestehen die Formeln für die meisten grundlegenden Naturgesetze aus Multiplikationen und Divisionen. Auf der logarithmischen Skala ergeben sich dann Additionen und Subtraktionen, und der entsprechende Zentrale Grenzwertsatz führt zur Normalverteilung – zurücktransformiert auf die ursprüngliche Skala also zur Log-Normalverteilung. Diese multiplikative Version des Grenzwertsatzes ist auch als Gesetz von Gibrat bekannt. Robert Gibrat (1904–1980) formulierte es für Unternehmen.[5]

In einigen Wissenschaften ist es üblich, Messgrößen in Einheiten anzugeben, die durch Logarithmieren einer gemessenen Konzentration (Chemie) oder Energie (Physik, Technologie) erhalten werden. So wird der Säuregrad einer wässerigen Lösung durch den pH-Wert gemessen, der als negativer Logarithmus der Wasserstoffionen-Aktivität definiert ist. Eine Lautstärke wird in Dezibel (dB) angegeben, das =10log10(E), wobei E das Verhältnis des Schalldruckpegels zu einem entsprechenden Referenzwert ist. Analoges gilt für andere Energie-Pegel. In der Finanzmathematik wird ebenfalls oft direkt mit logarithmierten Größen (Preisen, Kursen, Erträgen) gerechnet, siehe unten.

Für solche „bereits logarithmierte“ Größen ist dann die gewöhnliche Normalverteilung oft eine gute Wahl; also wäre hier, wenn man die ursprünglich gemessene Größe betrachten wollte, die Log-Normalverteilung geeignet.

Generell eignet sich die Log-Normalverteilung für Messgrößen, die nur positive Werte annehmen können, also Konzentrationen, Massen und Gewichte, räumliche Größen, Energien usw.

Die folgende Liste zeigt mit Beispielen die breite Palette der Anwendungen der Log-Normalverteilung.

  • Hydrologie: Die Log-Normalverteilung nützt bei der Analyse von Extremwerten wie – beispielsweise – monatliche oder jährliche Maxima der täglichen Regenmenge oder des Abflusses von Gewässern.[7]
  • Ökologie: Die Häufigkeit von Arten zeigt oft eine Log-Normalverteilung.[8]
  • Biologie und Medizin
    • Maße der Größe von Lebewesen (Länge, Hautfläche, Gewicht);[9]
    • Physiologische Größen wie der Blutdruck von Männern und Frauen.[10] Als Konsequenz sollten Referenzbereiche für gesunde Werte auf der Grundlage einer Log-Normalverteilung geschätzt werden.
    • Inkubationszeiten von ansteckenden Krankheiten;[11]
    • In der Neurologie zeigt die Verteilung der Impulsrate von Nervenzellen oft eine log-normale Form, so im Cortex und Striatum[12] und im Hippocampus und im entorhinalen Cortex[13] sowie in anderen Hirnregionen.[14][15] Ebenso für weitere neurobiologische Größen.[16]
    • Sensitivität gegenüber Fungiziden;[17]
    • Bakterien auf Pflanzenblättern:[18]
    • Permeabilität von Zellwänden und Mobilität von gelösten Stoffen:[19]
  • Technologie
    • In der Modellierung der Zuverlässigkeit werden Reparaturzeiten als log-normalverteilt beschrieben.[27]
    • Internet: Die Dateigröße von öffentlich verfügbaren Audio- und Video-Dateien ist genähert log-normalverteilt.[28] Analoges gilt für den Datenverkehr.[29]

Literatur

Einzelnachweise

Vorlage:Navigationsleiste Wahrscheinlichkeitsverteilungen