Chernoff-Ungleichung

Aus testwiki
Zur Navigation springen Zur Suche springen

Vorlage:Überarbeiten

In der Wahrscheinlichkeitstheorie beschreibt der Begriff Chernoff-Ungleichung eine obere Schranke für die Wahrscheinlichkeit, dass eine Sequenz unabhängiger Zufallsvariablen von ihrer erwarteten Anzahl an Erfolgen abweicht. Die Ungleichung wurde nach Herman Chernoff benannt, geht jedoch auf Herman Rubin zurück.[1][2]

Die Chernoff-Ungleichung ist ein vielseitiges und vielfach verwendetes Hilfsmittel bei der Analyse von randomisierten Algorithmen in der Informatik.

Allgemeine Formulierung

Die allgemeinste Form der Chernoff-Ungleichung für eine Zufallsvariable X erhält man durch Anwenden der Markov-Ungleichung auf etX:

Für alle t>0 gilt

Pr(Xa)=Pr(etXeta)E[etX]eta

und somit auch

Pr(Xa)inft>0E[etX]eta.

Diese Form der Chernoff-Ungleichung verwendet die momenterzeugende Funktion von X. Für eine gegebene Verteilung von X kann durch Ausrechnen dieser Funktion eine spezifische Chernoff-Ungleichung errechnet werden.

Chernoff-Ungleichung für Binomialverteilungen

Sei X1,X2,,Xn eine Sequenz von n unabhängigen Bernoulli-Experimenten mit P[Xi=1]=p und P[Xi=0]=1p. Demnach beschreibt pn die erwartete Anzahl an Erfolgen (Xi=1) des Experiments.

1. Dann gilt für jedes δ>0
P[Xi(1+δ)pn]exp(min{δ,δ2}3pn)
2. Für jedes δ[0,1] gilt:
P[Xi(1δ)pn]exp(δ22pn)
3. Für alle t2epn:
P[Xit]2t

Beweis

Erste Chernoff-Schranke

Sei t>0 eine zunächst beliebige Konstante. Bezeichne Y im Folgenden zur Vereinfachung der Schreibweise eine neue Zufallsvariable vermöge Y=exp(tXi). Auf Grund der Monotonie der Abbildung xexp(tx) folgt dann

P[Xi(1+δ)pn]=P[Yexp(t(1+δ)pn)]=P[YkE[Y]]1k,

wobei k als k=exp(t(1+δ)pn)E[Y] definiert ist und die letzte Abschätzung mittels Markow-Ungleichung folgt. Nun gilt

E[exp(tXi)]=(1p)e0+pet=1+(et1)p

und somit

E[Y]=E[exp(tXi)]=E[exp(tXi)]=E[exp(tXi)]=(1+(et1)p)n.

Damit folgt

1k=et(1+δ)pn(1+(et1)p)net(1+δ)pne(et1)pn=et(1+δ)pn+(et1)pn.

Betrachte nun t=log(1+δ). Dann gilt

1ke(log(1+δ))(1+δ)pn+δpn=e(δ(1+δ)log(1+δ))pn.

Für einen Teil des Exponenten des rechten Terms

L(δ)=(1+δ)log(1+δ)

kann man mittels Kurvendiskussion und Taylor-Reihenentwicklung zeigen, dass stets L(δ)δ+13min{δ,δ2} gilt. Auf Grund der Monotonie der Exponentialfunktion gilt

1ke(δ(δ+13min{δ,δ2}))pn=exp(min{δ,δ2}3pn).

Zusammen mit der ersten Abschätzung folgt die Behauptung.

Zweite Chernoff-Schranke

Der Beweis der zweiten Schranke folgt technisch analog zur ersten Schranke.


Dritte Chernoff-Schranke

Die Beweisidee besteht darin die Markow-Ungleichung auf Y=4X0 anzuwenden, wobei X=Xi.

P[Xit]=P[Xt]=P[Y4t]E[Y]4t

Dann gilt aufgrund der Unabhängigkeit der Bernoulli-Experimente:

E[Y]=E[4X]=E[4Xi]=E[4X1]...E[4Xn]

Was abgeschätzt werden kann durch:

E[4X1]...E[4Xn]e3p1...e3pn=e3E[X]

Durch die Zusatzbedingung, dass t2epn=2eE[X], folgt:

e3E[X](e32e)t2t

Also gilt:

P[Xit]E[Y]4t2t4t=2t

Chernoff-Ungleichung mithilfe der Standardabweichung

Eine allgemeine Variante der Chernoff-Ungleichung lässt sich mittels der Standardabweichung formulieren. Seien X1,X2,,Xn diskrete, unabhängige Zufallsvariablen mit E[Xi]=0 und |Xi|1. Bezeichne σ2 die Varianz von X=Xi. Dann gilt für jedes 0<λ2σ:

P[|Xi|λσ]2exp(λ24).

Der Beweis ist technisch analog zu dem oben gezeigten Beweis.

Beispiele

  • Betrachte die folgende Frage: Wie wahrscheinlich ist es, beim zehnmaligen Wurf einer fairen Münze wenigstens siebenmal das Ergebnis „Zahl“ zu erhalten? Die Münzwürfe stellen Bernoulli-Experimente X1,X2,,X10 mit pn=1210=5 dar. Somit folgt nach der ersten Chernoff-Ungleichung:
P[Xi7]=P[Xi(1+410)5]
exp(min{410,16100}35)=exp(415)0,766
  • Man formuliere das obige Beispiel nur leicht um und frage stattdessen: Wie wahrscheinlich ist es, bei hundertmaligem fairen Münzwurf wenigstens siebzigmal das Ergebnis „Zahl“ zu erhalten? Sofort erweist sich die erste Chernoff-Schranke als deutlich stärker:
P[Xi70]=P[Xi(1+410)50]
exp(min{410,16100}350)=exp(83)0,069

Literatur

Einzelnachweise