Stutzung

Aus testwiki
Zur Navigation springen Zur Suche springen

Der Begriff der Stutzung (englisch truncation) wird in der Stochastik für zwei verschiedene Konzepte verwendet. Beim ersten Konzept ist eine gestutzte Verteilung die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X unter der Bedingung auf ein Ereignis {XA}, wobei A in der Regel ein Teilintervall der reellen Zahlen ist. Beim zweiten Konzept wird aus einer gegebenen Zufallsvariablen eine neue gestutzte Zufallsvariable so gebildet, dass die Wahrscheinlichkeit außerhalb eines beschränkten Intervalls [a,b] auf den Punkt 0 oder auf die Punkte a und b gelegt wird.

Gestutzte Verteilung als bedingte Verteilung

Definition

Die reellwertige Zufallsvariable X besitze die Wahrscheinlichkeitsverteilung PX auf dem Messraum (,𝔹), wobei 𝔹 die Borelsche σ-Algebra auf bezeichnet. Es sei A𝔹 mit PX(A)>0. Die auf A gestutzte (oder eingeschränkte) Verteilung (englisch truncated distribution) ist dann durch die bedingten Wahrscheinlichkeiten

PX|A(B)=PX(BA|A)=PX(BA)PX(A)für B𝔹

gegeben.

Bezeichnungen

Häufig ist die Menge A ein Intervall der Form (,b], [a,b] mit a<b oder [a,). Bei einer Stutzung auf das Intervall (,b] nennt man die Verteilung einseitig bei b nach oben gestutzt[1] oder rechtsseitig gestutzt[2]. Bei einer Stutzung auf das Intervall [a,) nennt man die Verteilung einseitig bei a nach unten gestutzt[1] oder linksseitig gestutzt[2]. Bei einer Stutzung auf das Intervall [a,b] nennt man die Verteilung zweiseitig bei a nach unten gestutzt und bei b nach oben gestutzt[1] oder zweiseitig gestutzt[3]. Manchmal wird eine gestutzte Verteilung auch als trunkierte Verteilung[4] bezeichnet.

Eigenschaften

  • PX|A ist eine Wahrscheinlichkeitsverteilung auf dem Messraum (A,𝔹A) mit 𝔹A={BAB𝔹}, so dass (A,𝔹A,PX|A) einen Wahrscheinlichkeitsraum bildet.
  • Es gilt PX|A(A)=1.
  • In einer eher in der Statistik üblichen Schreibweise ist
PX|A(B)=P(XBA)P(XA).
  • In maßtheoretischer Interpretation ist (Ω,,P) ein gegebener Wahrscheinlichkeitsraum, die Zufallsvariable X eine (Ω,)(,𝔹)-messbare Abbildung und
PX|A(B)=P({ωX(ω)BA})P({ω|X(ω)A}).

Beispiel

  • Wenn eine Poissonverteilung auf gestutzt wird, dann entsteht eine positive Poisson-Verteilung.
  • Wenn eine Standardnormalverteilung auf [0,) gestutzt wird, dann entsteht eine Chi-Verteilung mit einem Freiheitsgrad. Dies ist die Verteilung von |Z|, wenn Z standardnormalverteilt ist.[5]
  • Häufig ist die Menge A ein Intervall der Form (,a], [a,b] mit a<b oder [b,). In diesen Fällen gibt es explizite Formeln, um die Verteilungsfunktion FX|A(B) der gestutzten Verteilung PX|A(B) durch die Verteilungsfunktion FX von PX und die Koeffizienten a und b darzustellen.[6] Falls X eine stetige Zufallsvariable ist, für die eine Dichtefunktion fXexistiert, gibt es auch Formeln um die Dichtefunktion fX|A aus der Dichtefunktion fX zu berechnen.[7]
  • Falls die Zufallsvariable Y die Verteilungsfunktion der auf das Intervall (a,b] gestutzten Verteilung der Zufallsvariablen X hat, gilt
FY(t)={0für taFX(t)FX(a)FX(b)FX(a)für a<tb1für t>1.[8]
  • Falls die Zufallsvariable Y die auf das Intervall (a,b] gestutzte Verteilung der diskreten Zufallsvariablen X hat, gilt
P(Y=t)={P(X=t)FX(b)FX(a)für a<tb0sonst.[8]
  • Falls die Zufallsvariable Y die auf das Intervall (a,b] gestutzte Verteilung der stetigen Zufallsvariablen X mit der Dichtefunktion fX hat, ist
fY(t)={fX(t)FX(b)FX(a)für a<tb0sonst
die Dichtefunktion der Zufallsvariablen Y.[8]

Gestutzte Normalverteilung

Ein häufig verwendeter Fall einer gestutzten Verteilung ist die auf ein Intervall gestutzte Normalverteilung 𝒩(μ,σ2). Im Folgenden bezeichnen φ und Φ die Dichtefunktion und die Verteilungsfunktion der Standardnormalverteilung. Für jedes x wird die Bezeichnung x~=(xμ)/σ vereinbart.

  • Eine Zufallsvariablen Y mit der auf das Intervall [a,b] mit a<b gestutzten Normalverteilung 𝒩(μ,σ2) hat die Verteilungsfunktion
FY(t)={0für taΦ(t~)Φ(a~)Φ(b~)Φ(a~)für a<tb1sonst ,
die Dichtefunktion
fY(t)={φ(t~)σ(Φ(b~)Φ(a~))für a<t<b0sonst ,
den Erwartungswert
𝔼[Y]=μσφ(b~)φ(a~)Φ(b~)Φ(a~)
und die Varianz
Var[Y]=σ2(1b~φ(b~)a~φ(a~)Φ(b~)Φ(a~)(φ(b~)φ(a~)Φ(b~)Φ(a~))2).[9]
  • Eine Zufallsvariablen Y mit der auf das Intervall [a,) gestutzten Normalverteilung 𝒩(μ,σ2) hat die Verteilungsfunktion
FY(t)={0für taΦ(t~)Φ(a~)1Φ(a~)für a<tb1sonst ,
die Dichtefunktion
fY(t)={φ(t~)σ(1Φ(a~))für a<t0sonst ,
den Erwartungswert
𝔼[Y]=μ+σφ(a~)1Φ(a~)
und die Varianz
Var[Y]=σ2(1+a~φ(a~)1Φ(a~)(φ(a~)1Φ(a~))2).
  • Eine Zufallsvariablen Y mit der auf das Intervall (,b] gestutzten Normalverteilung 𝒩(μ,σ2) hat die Verteilungsfunktion
FY(t)={Φ(t~)Φ(b~)für tb1sonst ,
die Dichtefunktion
fY(t)={φ(t~)σΦ(b~)für t<b0sonst ,
den Erwartungswert
𝔼[Y]=μσφ(b~)Φ(b~)
und die Varianz
Var[Y]=σ2(1b~φ(b~)Φ(b~)(φ(b~)Φ(b~))2).

Anwendungen

Die statistische Lebensdaueranalyse (englisch life testing) wird hauptsächlich in der Technik und Biometrie angewendet. Die positive und stetige Zufallsvariable X bezeichne eine zufällige Lebensdauer.

Dann beschreibt für einen Zeitpunkt a>0 die Zufallsvariable Y=Xa durch negative bzw. positive Werte inwieweit die Lebensdauer den Zeitpunkt b zufällig unter- bzw. überschreitet.

Die zufällige Restlebensdauer bei Erreichen von a ist durch die Verteilung der Zufallsvariablen Y unter der Bedingung {Y>0} bzw. die auf das Intervall [0,) gestutzte Verteilung von Y beschrieben.[10]

Ist der Einsatz einer Maschine bis zum Zeitpunkt b>0 geplant, dann interessiert die zufällige Frühausfallzeit, die durch die Verteilung von X unter der Bedingung {X<b} bzw. die auf das Intervall (0,b) gestutzte Verteilung von X gegeben ist.[11]

Die zufällige Interimslebensdauer zwischen zwei Zeitpunkten a und b mit 0<a<b ist die Verteilung Y=Xa unter der Bedingung {aXb}={0Yba} bzw. die auf das Intervall [0,ba] gestutzte Verteilung von Y gegeben.[12]

Gestutzte Zufallsvariable als beschränkte Zufallsvariable

Gestutzte Zufallsvariablen

Bei Konvergenzuntersuchungen für eine Folge von Zufallsvariablen (Xn)n werden häufig die Zufallsvariablen

Yn=Xn𝟏[n,n](Xn)={Xn,falls |Xn|n0,falls |Xn|>n

gebildet und als gestutzte Zufallsvariablen (englisch truncated random variables) bezeichnet.[13][14] Dabei bezeichnet x𝟏A(x) die Indikatorfunktion der Menge A.

Die so gebildeten Zufallsvariablen sind beschränkt, da Yn[n,n] gilt und haben damit eine endliche Varianz und endliche Momente höherer Ordnung. Die Folge (Yn)n besteht nur aus beschränkten Zufallsvariablen und ist eine Approximation der Folge (Xn)n. Wenn die Zufallsvariablen Xn endliche Erwartungswerte haben, gilt die Abschätzung P(XnYn)1/n für hinreichend großes n.[15]

Beim Beweis von Grenzwertsätzen ist die Verwendung in dieser Art gestutzter Zufallsvariablen eine wichtige Beweismethode, die als Stutzungsmethode (englisch method of truncation)[16] oder Abschneidetechnik[17] bekannt ist. Eine typische Anwendung ist der Beweis des schwachen Gesetzes der großen Zahlen in einer allgemeinen Version, die endliche Erwartungswerte, aber keine endlichen Varianzen voraussetzt.[15] In diesem Zusammenhang heißt die Folge (Yn)n auch gestutzte Version der Folge (Xn)n.[13]

Die Beschränktheit der Zufallsvariablen Yn wird dabei dadurch erreicht, dass die außerhalb des Intervalls [n,n] liegende Wahrscheinlichkeitsmasse der Stelle 0 zugeordnet wird. Dagegen wird bei der auf das Intervall [n,n] gestutzten Verteilung die außerhalb des Intervalls [n,n] liegende Wahrscheinlichkeitsmasse gleichmäßig auf das Intervall [n,n] verteilt.

Alternative Form der Stutzung einer Folge von Zufallsvariablen im Zusammenhang Untersuchungen der Voraussetzungen für Gesetze der großen Zahlen sind die Stutzung der Zufallsvariablen Xn in der Form[18]

Yn=Xn𝟏(n,n)(Xn)+n𝟏(n,n)(Xn)={Xn,falls |Xn|<nn,falls |Xn|n

und in der Form[19]

Yn=Xn𝟏[n,n](Xn)={Xn,falls |Xn|n0,falls |Xn|>n.

Winsorisierte Zufallsvariable

Für eine Zufallsvariable X und ein Intervall (a,b] mit a<b ist

Y=X𝟏(a,b](X)+a𝟏(,a](X)+b𝟏(b,)(X)

die auf das Intervall (a,b] winsorisierte Zufallsvariable. Dabei werden Werte von X, die kleiner als a sind, der Stelle a und Werte von X, die größer als b sind, der Stelle b zugeordnet. Die neu gebildete Zufallsvariable ist beschränkt mit Werten in [a,b].[20]

Unterschied der Konzepte

Der Unterschied der beiden Konzepte sei an einer standardnormalverteilten Zufallsvariable X mit der Verteilungsfunktion Φ erläutert.

  • Die auf das Intervall [2,2] gestutzte Verteilung hat die Verteilungsfunktion
Φ|[2,2](x)={0für x<2Φ(x)Φ(2)Φ(2)Φ(2)für 2x<21für x2.

Dabei gilt P(X[2,2])=Φ(2)Φ(2).

  • Die durch Y:=X𝟏[2,2](X) definierte Zufallsvariable ist beschränkt, da sie nur Wert im Intervall [2,2] annimmt, und hat die Verteilungsfunktion
FY(x)=P(Yx)={0für x<2Φ(x)Φ(2)für 2x<0Φ(x)+1Φ(2)für 0x<21für x2.

Während die Verteilungsfunktion Φ|[2,2] stetig ist, hat die Verteilungsfunktion von Y die Sprungstelle 0, an der diese um den Wert 1(Φ(2)Φ(2)) springt, es gilt also P(Y=0)=1(Φ(2)Φ(2))).

In der Literatur kommt es manchmal zur Konfusion beider Konzepte. Beispielsweise wird ausgehend von einer Zufallsvariablen X und einem Intervall (a,b] die Zufallsvariable X𝟏(a,b](X) definiert und als auf (a,b] gestutzte Zufallsvariable bezeichnet, dann aber die Verteilungsfunktion der auf (a,b] gestutzten Verteilung (im Sinn einer bedingten Verteilung) angegeben.[21]

Gestutzte Beobachtungswerte und verwandte Konzepte

Gestutzte und zensierte Beobachtungswerte sind Fälle unvollständig erhobener oder berichteter Daten, während bei getrimmten und winsorisierten Beobachtungswerten zunächst eine Stichprobe vollständiger Daten vorliegt, aus der extreme Werte entfernt werden, um eine Verbesserung im Sinn robuster Schätzverfahren zu erreichen.

Gestutzte Beobachtungswerte

Gestutzte Beobachtungswerte sind ein Fall unvollständiger berichteter Daten, wobei nur Beobachtungswerte aus einem Teil der Grundgesamtheit vorliegen. Bei der Beobachtung von Lebenszeiten liegen linksseitig gestutzte Beobachtungswerte vor, wenn eine Häufigkeitsverteilung von Lebenszeiten vorliegt, wobei nur Beobachtungseinheiten berücksichtigt sind, deren Lebenszeit einen bestimmten Wert überschreitet. Im Fall von Zufallsstichproben können solche Beobachtungswerte als Realisierungen von Stichprobenvariablen mit einer gestutzten (bedingten) Verteilung beschrieben werden.

Zensierte Beobachtungswerte

Bei zensierten Daten (oder Beobachtungswerten) sind einige beobachtete Werte nur unvollständig bekannt. Wenn bei n Untersuchungseinheiten für die Werte eines Merkmals x:{1,,n} mit Werten xi=x(i) gemessen werden, so spricht man von an der Stelle a linksseitig zensierten Beobachtungswerten. Falls nur die Werte im Intervall (,b] bekannt sind, so liegen an der Stelle b rechtsseitig zensierte Beobachtungswerte vor. Falls nur die beobachteten Werte im Intervall [a,b] bekannt sind, liegen beidseitig durch das Intervall [a,b] zensierte Beobachtungwerte vor.[22]

Wenn (X1,,Xn) eine Zufallsstichprobe ist und nur die Realisierungen in einem vor der Stichprobenziehung fixierten Intervall [a,) bekannt sind, so spricht man von einer linksseitig zensierten Stichprobe vom Typ I. Dabei ist die Anzahl nu der unterhalb von a liegenden Beobachtungswerte die Realisierung einer Zufallsgröße.[23] Von einer linksseitig zensierten Stichprobe vom Typ II spricht man, wenn die Anzahl r=nnu vorgegeben ist und sich die Grenze a zufällig ergibt. Dabei liegen nur r Beobachtungswerte vor.[23] Analog werden die Begriffe der rechtsseitig und beidseitig zensierten Stichprobe verwendet.

Zensierte Stichproben spielen eine Rolle bei der Lebensdaueranalyse und Zuverlässigkeitsanalyse in der Biometrie und Technik, bei der die Beobachtungsdauer begrenzt ist. Wenn die Beobachtungsdauer durch einen festen Abbruchzeitpunkt begrenzt ist, entsteht eine rechtsseitig zentrierte Stichprobe vom Typ I; wenn noch einer vorgegebenen Anzahl von Ausfällen abgebrochen wird, entsteht eine rechtsseitig zentrierte Stichprobe vom Typ II.[24]

Zensierte Stichproben vom Typ I werden manchmal als gestutzte Stichproben bezeichnet.[23]

Getrimmte Beobachtungswerte

Für Stichprobenwerte x1x2xn entstehen symmetrisch getrimmte Stichprobenwerte, wenn für ein k<n/2 die jeweils k kleinsten und k größten Werte entfernt werden, so dass die verbliebene Stichprobe aus n2k Werten besteht.[25] Der arithmetische Mittelwert der verbliebenen Werte

1n2ki=k+1n2kxi,

heißt dann α-getrimmter Mittelwert mit α=k/n.[25]

Dabei kann der getrimmte Mittelwert im Fall xk<xk+1 und xnk<xnk+1 als Mittelwert der auf das Intervall A=[xk+1,xnk] gestutzten empirischen Verteilung interpretiert werden. Die empirische Verteilung der beobachteten Werte ist

Pn(B)=1ni=1n𝟏B(xi),B.

Durch Stutzung auf A ergibt sich

Pn|A(B)=Pn(BA)Pn(B)=1ni=1n𝟏BA(xi)1ni=1n𝟏A(xi)=i=k+1nk𝟏B(xi)n2k,B

und damit die empirische Verteilung für die n2k beobachteten Werte (xk+1,xk+2,,xnk), die sich im Intervall A befinden.

Winsorisierte Beobachtungswerte

Aus den Stichprobenwerten x1x2xn wird für k<n/2 die winsorisierte Stichprobe gebildet, indem die k kleinsten Werte auf den nächstgrößeren Wert xk+1 erhöht werden und die k größten Wert auf den nächstkleineren Wert xnk reduziert werden.[25] Der arithmetische Mittelwert dieser Werte ist der winsorisierte Mittelwert

1n(kxk+1+i=k+1nkxi+kxnk).

Literatur

Einzelnachweise