Bayes-Schätzer

Aus testwiki
Zur Navigation springen Zur Suche springen

Ein Bayes-Schätzer (IPA: [[[:Vorlage:IPA]]], Vorlage:Audio; benannt nach Thomas Bayes) ist in der mathematischen Statistik eine Schätzfunktion, die zusätzlich zu den beobachteten Daten eventuell vorhandenes Vorwissen über einen zu schätzenden Parameter berücksichtigt. Gemäß der Vorgehensweise der bayesschen Statistik wird dieses Vorwissen durch eine Verteilung für den Parameter modelliert, die A-priori-Verteilung. Mit dem Satz von Bayes ergibt sich die bedingte Verteilung des Parameters unter den Beobachtungsdaten, die A-posteriori-Verteilung. Um daraus einen eindeutigen Schätzwert zu erhalten, werden Lagemaße der A-posteriori-Verteilung, wie Erwartungswert, Modus oder Median, als sogenannte Bayes-Schätzer verwendet. Da der A-posteriori-Erwartungswert der wichtigste und in der Praxis am häufigsten angewendete Schätzer ist, bezeichnen auch einige Autoren diesen als den Bayes-Schätzer.[1] Allgemein definiert man einen Bayes-Schätzer als denjenigen Wert, der den Erwartungswert einer Verlustfunktion unter der A-posteriori-Verteilung minimiert. Für eine quadratische Verlustfunktion ergibt sich dann gerade der A-posteriori-Erwartungswert als Schätzer.

Definition

Es bezeichnen θΘ den zu schätzenden Parameter und f(x|θ) die Likelihood, also die Verteilung der Beobachtung x𝒳 in Abhängigkeit von θ. Die A-priori-Verteilung des Parameters sei mit g(θ) bezeichnet. Dann ist

h(θ|x)=f(x|θ)g(θ)Θf(x|θ)g(θ)dθ

die A-posteriori-Verteilung von θ. Es sei weiter eine Funktion :Θ×Θ, genannt Verlustfunktion, gegeben, deren Werte (a,θ) den Verlust modellieren, den man bei einer Schätzung von θ durch a erleidet. Dann heißt ein Wert aΘ, der den Erwartungswert

E((a,)|x)=Θ(a,θ)h(θ|x)dθ

des Verlustes unter der A-posteriori-Verteilung minimiert, ein Bayes-Schätzer von θ.[2] Im Fall einer diskreten Verteilung von θ sind die Integrale über Θ als Summation über θΘ zu verstehen.

Spezialfälle

A-posteriori-Erwartungswert

Eine wichtige und häufig verwendete Verlustfunktion ist die quadratische Abweichung

(a,θ)=(aθ)2.

Mit dieser Verlustfunktion ergibt sich als Bayes-Schätzer der Erwartungswert der A-posteriori-Verteilung, kurz der A-posteriori-Erwartungswert

E(θ|x)=Θθh(θ|x)dθ=Θθf(x|θ)g(θ)dθΘf(x|θ)g(θ)dθ.

Das sieht man auf folgende Weise: Differenziert man E((aθ)2|x) nach a, ergibt sich

dda(Θ(aθ)2h(θ|x)dθ)=2Θ(aθ)h(θ|x)dθ=2aΘh(θ|x)dθ=12Θθh(θ|x)dθ.

Nullsetzen dieser Ableitung und Auflösen nach a liefert obige Formel.

A-posteriori-Median

Ein weiterer wichtiger Bayes-Schätzer ist der Median der A-posteriori-Verteilung. Er ergibt sich bei Verwendung der stückweise linearen Verlustfunktion

(a,θ)=|aθ|,

des Betrags des absoluten Fehlers. Bei einer stetigen A-posteriori-Verteilung ergibt sich der zugehörige Bayes-Schätzer als Lösung a der Gleichung

ah(θ|x)dθ=12,

also als Median der Verteilung mit Dichte h(|x).

A-posteriori-Modus

Vorlage:Hauptartikel Für diskret verteilte Parameter θ bietet sich die Null-Eins-Verlustfunktion

(a,θ)={0,a=θ,1,sonst, 

an, die allen falschen Schätzungen einen konstanten Verlust zuordnet und nur eine exakte Schätzung nicht „bestraft“. Als Erwartungswert dieser Verlustfunktion ergibt sich die A-posteriori-Wahrscheinlichkeit des Ereignisses {θa}, also 1h(a|x). Diese wird minimal an den Stellen, an denen h(a|x) maximal ist, das heißt an den Modalwerten der A-posteriori-Verteilung.

Bei stetig verteilten θ hat das Ereignis θ=a für alle a Wahrscheinlichkeit null. In diesem Fall kann man stattdessen für ein (kleines) vorgegebenes ε>0 die Verlustfunktion

(a,θ)={0,|aθ|ε1,|aθ|>ε 

betrachten. Im Limes ε0 ergibt sich dann ebenfalls der A-posteriori-Modus als Bayes-Schätzer.

Im Falle einer Gleichverteilung als A-priori-Verteilung ergibt sich der Maximum-Likelihood-Schätzer, der somit einen Spezialfall eines Bayes-Schätzers darstellt.

Beispiel

A-priori- (gestrichelt) und A-posteriori-Dichte im nebenstehenden Beispiel; A-posteriori-Modus, -Median und -Erwartungswert sind durch vertikale Linien markiert

Eine Urne enthält rote und schwarze Kugeln in unbekannter Zusammensetzung, das heißt, die Wahrscheinlichkeit p, eine rote Kugel zu ziehen, ist unbekannt. Um θ=p zu schätzen, werden n=6 Kugeln nacheinander mit Zurücklegen gezogen: Nur eine einzige Ziehung liefert eine rote Kugel, es wird also x=1 beobachtet. Die Anzahl der gezogenen roten Kugeln ist binomialverteilt mit n=6 und p, also gilt

f(x|θ)=(nx)px(1p)nx=6p(1p)5.

Da über den zu schätzenden Parameter p keinerlei Information vorliegt, wird die Gleichverteilung als A-priori-Verteilung verwendet, das heißt g(θ)=1 für θΘ=(0,1). Als A-posteriori-Verteilung ergibt sich somit

h(θ|x)=f(x|θ)g(θ)Θf(x|θ)g(θ)dθ=6p(1p)5016p(1p)5dp=42p(1p)5.

Das ist die Dichte einer Beta-Verteilung mit den Parametern α=2 und β=6. Damit ergibt sich als A-posteriori-Erwartungswert αα+β=14 und als A-posteriori-Modus α1α+β2=16. Der A-posteriori-Median muss numerisch bestimmt werden und ergibt ungefähr 0,2285. Allgemein ergibt sich bei k roten Kugeln in n Ziehungen k+1n+2 als A-posteriori-Erwartungswert und kn, also der klassische Maximum-Likelihood-Schätzer, als A-posteriori-Modus. Für nicht zu kleine Werte von n ist k+23n+43 eine gute Näherung für den A-posteriori-Median.

Praktische Berechnung

Ein Hindernis bei der Anwendung von Bayes-Schätzern kann ihre numerische Berechnung sein. Ein klassischer Ansatz ist die Verwendung von sogenannten konjugierten A-priori-Verteilungen, bei denen sich eine A-posteriori-Verteilung aus einer bekannten Verteilungsklasse ergibt, deren Lageparameter dann einfach in einer Tabelle nachgeschlagen werden können. Verwendet man beispielsweise im obigen Urnenexperiment eine beliebige Betaverteilung als Prior, dann ergibt sich auch eine Betaverteilung als A-posteriori-Verteilung.[3]

Für allgemeine A-priori-Verteilungen zeigt die obige Formel des A-posteriori-Erwartungswerts, dass zu seiner Berechnung zwei Integrale über den Parameterraum bestimmt werden müssen. Eine klassische Näherungsmethode ist die Laplace-Approximation, bei der die Integranden als Exponentialfunktion geschrieben werden und anschließend die Exponenten durch eine quadratische Taylor-Approximation angenähert werden.[4]

Mit dem Aufkommen leistungsfähiger Computer wurden weitere numerische Verfahren zur Berechnung der auftretenden Integrale anwendbar (siehe Numerische Integration). Ein Problem stellen vor allem hochdimensionale Parametermengen dar, also der Fall, dass sehr viele Parameter aus den Daten geschätzt werden sollen. Hierbei kommen häufig Monte-Carlo-Verfahren als Näherungsverfahren zum Einsatz.[5]

Literatur

Einzelnachweise

  1. Vorlage:Literatur
  2. Vorlage:Literatur
  3. Held: Methoden der statistischen Inferenz. 2008, S. 146–148.
  4. Held: Methoden der statistischen Inferenz. 2008, S. 188–191.
  5. Held: Methoden der statistischen Inferenz. 2008, S. 192–208.