Satz von Bernstein-von-Mises

Aus testwiki
Version vom 14. Oktober 2024, 21:51 Uhr von imported>Daju99 (growthexperiments-addlink-summary-summary:2|1|0)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Der Satz von Bernstein-von-Mises ist ein nach Sergei Bernstein und Richard von Mises benannter Lehrsatz der mathematischen Statistik. Seine anschauliche Bedeutung besteht darin, dass bayessches Lernen, wie es zum Beispiel bei Bayesschen Netzen angewandt wird, auf lange Sicht zu den richtigen Ergebnissen führt.

Der Satz besagt, dass sich in parametrischen Modellen die A-posteriori-Verteilung im Regelfall unabhängig von der A-priori-Verteilung asymptotisch (bei großer Anzahl von Beobachtungen) um den wahren Parameter (Konsistenz des bayesschen Schätzers) konzentriert. Er stellt damit eine wichtige Verbindung zwischen bayesscher Statistik und frequentistischer Statistik her.

Die entsprechend zentrierte und skalierte A-Posteriori-Verteilung ist nach dem Satz von Bernstein-von-Mises sogar asymptotisch eine Normalverteilung mit der inversen Fisher-Informations-Matrix als Kovarianzmatrix (asymptotische Effizienz des bayesschen Schätzers):

P(θ|x1,xn)=𝒩(θ0,n1In(θ0)1) für n,

mit θ0 als wahrer Parameter. Demnach führen in parametrischen Modellen optimale frequentistische und bayessche Ansätze asymptotisch zu qualitativ gleichen Ergebnissen.

Also ist die A-posteriori-Verteilung für die unbekannten Größen in einem Problem in gewissem Sinne von der A-priori-Verteilung unabhängig, sobald die durch die Stichprobe gewonnene Informationsmenge groß genug ist.[1]

Anwendungsbeispiel

Im Folgenden sollen die Anwendung des Satzes und die typische Vorgehensweise der bayesschen Inferenz anhand eines einfachen Beispiels illustriert werden: Beobachtet wird eine Zufallsvariable Y und deren Realisierung anhand eines Satzes von Messdaten y={y1,,yn} aus dem Stichprobenraum. Diese Daten sollen durch ein stochastisches Modell mit unbekanntem Parameter ϑ, welcher auch vektorwertig sein kann, beschrieben werden. Bevor die Daten erhoben werden, sind sowohl deren Werte als auch jene des Parameters unsicher, und ein gemeinsames stochastisches Modell für (Y,ϑ) ist sinnvoll. In dieser Interpretation ist auch der Parameter ϑ eine Zufallsvariable mit einer Prior-Verteilung p(ϑ). Diese ist offensichtlich vor der tatsächlichen Datenmessung noch unbekannt, und es muss eine „vernünftige“ A-priori-Annahme über sie getroffen werden. Nach der Beobachtung der Daten wird die Meinung über den Parameter aktualisiert. Die gesamte verfügbare Information über ϑ wird durch die Posterior-Verteilung p(ϑ|y) beschrieben. Diese ist nach dem Satz von Bayes gegeben als

p(ϑ|y)=p(y|ϑ)p(ϑ)p(y),

wobei der Ausdruck p(y|ϑ) die sogenannte Likelihood-Funktion darstellt und die Verteilung von Y bei gegebenem Parameter ϑ beschreibt. Es ist zu erhoffen, dass die Posterior-Verteilung p(ϑ|y) eine bessere und genauere Aussage über ϑ ermöglicht als die ursprüngliche naive Prior-Verteilung p(ϑ). Dieser letzte Schritt wird gewöhnlich als bayessches Lernen bezeichnet und ist ein wesentlicher Schritt beim Lernen in neuronalen Netzen. Nehmen wir nun diese letzte Posterior-Verteilung p(ϑ|y) als neue Prior-Verteilung an, erheben einen neuen weiteren Datensatz und wiederholen das obige Vorgehen, erhalten wir nach einem weiteren bayesschen Lernschritt eine weitere, aktualisierte Posterior-Verteilung. Diese enthält nun Informationen von zwei Datensätzen und sollte damit eine noch bessere und genauere Aussage über ϑ liefern. Dass die wiederholte Anwendung dieses bayesschen Lernens sich erfolgreich der tatsächlichen Verteilung von ϑ annähert, ist Aussage des Bernstein-von-Mises-Theorems. Die Konvergenz dieses Verfahrens gegen die tatsächliche Verteilung von ϑ erfolgt unter gewissen Voraussetzungen fast sicher und ist unabhängig von der Prior-Verteilung.

Formulierung des Satzes

Für eine Parametermenge Θk sei (Pθ)θΘ ein dominiertes parametrisches statistisches Modell, d. h. für jedes θΘ hat man Pθ=pθμ mit einem Maß μ auf d. Dabei sei θ0 der Parameterwert, den man tatsächlich schätzen will.

Wir nehmen an, dass pθ0 differenzierbar im geometrischen Mittel ist, d. h. dass es einen Vektor aus k Funktionen lθ0 gibt (den Score in θ0), so dass für h0 :

(pθ0+hpθ012hTlθ0pθ0)2dμ=o(||h||2)

Der Score ist zentriert und besitzt eine Varianz Iθ0, die Fisher-Information. Wir nehmen an, dass diese Matrix invertierbar ist.

Um den Satz von Bayes anwenden zu können, nehmen wir an, dass θ einem a priori-Dichtegesetz π genügt, welches wir stetig und positiv in θ0 annehmen.

Schließlich nehmen wir an, dass es für jedes ε>0 eine Folge statistischer Tests ϕn gibt, so dass limn𝔼θ0[ϕn]=0 und limnsupθ:||θθ0||ε𝔼θ[1ϕn]=0.

Unter diesen Annahmen besagt der Satz dann, dass die mit dem Satz von Bayes berechnete a posteriori-Verteilung von n(θθ0) mit den Beobachtungen (X1,,Xn) „asymptotisch nahe“ in Wahrscheinlichkeit zu einer Normalverteilung ist, deren Varianz das Inverse der Fischer-Information ist.

Mathematisch beschreibt man das mit Hilfe der totalen Variation ||.||VT durch die Beziehung

||(n(θθ0)|X1,,Xn)𝒩(Δn(θ0),Iθ01)||VT=oPθ0(1)

mit Δn(θ0)=Iθ011ni=1nlθ0(Xi).

Caveat

Der Satz von Bernstein und von Mises ist zufriedenstellend, wenn angenommen wird, dass der Parameter durch einen Zufallsmechanismus ausgewählt wird, dessen Wahrscheinlichkeitsgesetz bekannt ist. Andererseits ist es in manchen Fällen erforderlich, die Ausnahme-Nullmenge zu identifizieren. Wenn der Parameter beispielsweise fest, aber unbekannt ist und der Prior als bequeme Methode zur Berechnung von Schätzungen verwendet wird, ist es wichtig zu wissen, für welche Nullmenge die Methode scheitert. Insbesondere wäre es wünschenswert, den Prior so zu wählen, dass die Ausnahme-Nullmenge tatsächlich leer ist. Der einfachst mögliche Fall dieses Problems, nämlich der von unabhängigen, identisch verteilten, diskreten Beobachtungen wird in [2] diskutiert.

Bayes’sche Schätzungen können inkonsistent sein, wenn der zugrundeliegende Mechanismus eine unendliche Menge möglicher Ausgänge zulässt. Es gibt jedoch Klassen von Prioren („tailfree priors“ und „Dirichlet priors“), für die Konsistenz von Prioren bewiesen werden kann. Für andere Prioren, beispielsweise die in [3] diskutierten, erhält man aber inkonsistente Schätzungen.

Geschichte

Das Theorem wurde benannt nach Richard von Mises und Sergei Natanowitsch Bernstein, obwohl der erste strenge Beweis durch Joseph L. Doob im Jahre 1949 für Zufallsvariablen mit endlichen Wahrscheinlichkeitsräumen gegeben wurde.[4] Später haben Lucien Le Cam, seine Doktorandin Lorraine Schwarz, die Mathematiker David A. Freedman und Persi Diaconis das Theorem und seine Voraussetzungen verallgemeinert. Auf ein bemerkenswertes Resultat von David A. Freedman aus dem Jahre 1965 sei hingewiesen: das Bernstein-von-Mises-Theorem ist fast sicher „nicht anwendbar“, wenn die Zufallsvariable in einem unendlich abzählbaren Wahrscheinlichkeitsraum lebt. In anderen Worten ausgedrückt, konvergiert in diesem Falle für fast alle anfänglichen Prior-Verteilungen das Verfahren nicht gegen die wahre Verteilung. Der anschauliche Grund hierfür liegt darin, dass die in einem jeweiligen bayesschen Lernschritt gelernte Information vom Maß 0 ist. Eine negative Folge hiervon zeigt sich bereits bei hochdimensionalen, aber endlichen Problemen, wie Persi Diaconis und David A. Freedman in ihrer Publikation von 1986 im letzten Satz der Zusammenfassung anmerken: Vorlage:Zitat

Der bekannte Statistiker A. W. F. Edwards bemerkte einmal ähnlich: Vorlage:"[5]

Literatur

  • David A. Freedman: On the asymptotic behaviour of behaviour of Bayes estimates in the discrete case. In: The Annals of Mathematical Statistics, vol. 34, 1963, S. 1386–1403, Vorlage:DOI Vorlage:JSTOR.
  • David A. Freedman: On the asymptotic behaviour of behaviour of Bayes estimates in the discrete case II. In: The Annals of Mathematical Statistics, vol. 36, 1965, S. 454–456, Vorlage:DOI Vorlage:JSTOR.
  • Lucien Le Cam: Asymptotic Methods in Statistical Decision Theory. Springer, 1986, ISBN 0-387-96307-3, S. 336 und 618–621.
  • Lorraine Schwartz: On Bayes procedure. In: Z. Wahrscheinlichkeitstheorie, 1965, No. 4, S. 10–26.

Einzelnachweise

  1. Vorlage:Literatur
  2. Freedman, op. cit.
  3. Diaconis, Freedman, op. cit.
  4. Vorlage:Literatur
  5. Vorlage:Literatur