Defizit (Statistik)

Aus testwiki
Version vom 9. Januar 2025, 19:37 Uhr von imported>YNTI wiki (growthexperiments-addlink-summary-summary:3|0|0)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Das Defizit (Vorlage:FrS, Vorlage:EnS) ist in der Statistik eine Norm zur Beurteilung eines statistischen Modells in Relation zu einem anderen statistischen Modell . Der Begriff wurde in den 1960er von dem französischen Mathematiker Lucien Le Cam eingeführt, um den Satz von Blackwell-Sherman-Stein neu zu formulieren.[1] Eng verwandt ist die Le-Cam-Distanz, eine Pseudometrik, welche das maximale Defizit zweier statistischen Modelle misst. Wenn das Defizit des Modells zu Null ist, dann nennt man besser oder informativer oder stärker als .

Einführung in die Problemstellung

David Blackwell definierte das statistische Modell als einen Wahrscheinlichkeitsraum :=(Ω1,𝒜1,(Pθ)θΘ) mit einer Familie von Wahrscheinlichkeitsmaßen (Pθ)θΘ. Eine natürliche Frage ist nun, wann besser oder informativer als ein anderes statistisches Modell :=(Ω2,𝒜2,(Qθ)θΘ) ist, welches dasselbe Experiment modelliert.

Mathematiker versuchten das Problem zu lösen, darunter Frederic Bohnenblust, Lloyd S. Shapley, Seymour Sherman sowie David Blackwell und Elias Stein. Aus deren Arbeiten resultierte der Satz von Blackwell-Sherman-Stein, welcher mit Hilfe von Markow-Kernen formuliert werden kann. Kurzgesagt, sagt der Satz, dass besser als ist, wenn durch eine Randomisierung von über den Markow-Kern entstehen kann. Das Problem an dem Satz war, dass viele Modelle nicht miteinander vergleichbar waren. Le Cam führte den Begriff des Defizits ein, notiert als δ(,), und formulierte eine neue, approximative Variante des Satzes von Blackwell-Sherman-Stein. Die Existenz einer Randomisierung wird durch die Aussage δ(,)=0 ersetzt. Modellen, welche nicht miteinander vergleichbar sind, kann somit über das Defizit trotzdem eine Zahl zugeordnet werden.[2][3]

Le-Cam-Theorie

Le Cam definierte das statistische Modell abstrakter als Blackwell, das heißt nicht in Form eines Wahrscheinlichkeitsraumes mit einer Familie von Wahrscheinlichkeitsmaßen, sondern über Banachverbände. Le Cam verwendete auch den Begriff des Experiments statt des Modells.

In seiner 1964 veröffentlichten Arbeit definierte er das statistische Modell als Tripel (X,E,(Pθ)θΘ) mit Indexmenge Θ, bestehend aus Menge X, einem Vektor-Verband E mit Einheit I und einer Familie von positiven normierten Funktionalen (Pθ)θΘ auf E.[4] Die (Pθ)θΘ ersetzen somit die Wahrscheinlichkeitsmaße. In seinem 1986 veröffentlichten Buch verzichtete er dann ganz auf E und X.[5] Im Artikel wird die Definition und Terminologie seines 1986 veröffentlichten Buch verwendet, das heißt wir verwenden den Begriff des Experiments.

Defizit

Wir folgen dem Vokabular aus der Einleitung und werden zuerst ein paar weitere Grundbegriffe definieren.

Abstrakte L1-Räume, Experimente, M-Räume und Übergänge

Zuerst definieren wir den abstrakten L1-Raum.

  • Einen Banachverband (L,) nennt man einen abstrakten L1-Raum oder kurz L-Raum, falls für alle positiven Elemente x,y0 auch x+y=x+y gilt.

Für einen L-Raum definieren wir nun den Begriff des Experiments.

  • Sei Θ eine Indexmenge und (L,) ein L-Raum bestehend aus positiven linearen Funktionalen {Pθ:θΘ}. Ein Experiment ist eine Abbildung :ΘL der Form θPθ, so dass Pθ=1. Der Raum L ist das durch {Pθ:θΘ} erzeugte Band und wird auch L-Raum von genannt, deshalb notieren wir ihn mit L(). Für ein μL() definiert man außerdem den nicht-negativen Teil als μ+=μ0=max(μ,0).

Für einen L-Raum definieren wir seinen abstrakten M-Raum.

  • Den topologischen Dualraum M eines L-Raumes (L,L), ausgestattet mit der konjugierten Norm uM=sup{|u,μ|;μL1}, nennt man abstrakten M-Raum oder M-Raum. Der M-Raum ist ein Vektorverband und besitzt eine Einheit I definiert durch Iμ=μ+LμL für μL.

Für zwei L-Räume L(A) und L(B) zu zwei Experimenten A und B definieren wir den Übergang, das ist eine positive, normerhaltende, lineare Abbildung zwischen den L-Räumen.

  • Eine Übergang T:L(A)L(B) ist eine lineare Abbildung, so dass Tμ+=μ+ für jedes μL(A) gilt.

Die Adjungierte des Übergangs ist eine positive lineare Abbildung vom Dualraum MB von L(B) in den Dualraum MA von L(A), so dass die Einheit von MA das Bild von der Einheit von MB ist.[5] Ein Markow-Kern T induziert einen Übergang μTμ, jedoch muss nicht jeder Übergang ein Markow-Kern sein.

Definition

Seien Θ eine Indexmenge und :θPθ und :θQθ zwei Experimente, welche durch Θ indiziert werden. Seien L() und L() die dazugehörigen L-Räume und 𝒯 die Menge aller Übergänge von L() zu L().

Das Defizit δ(,) von zu ist die Zahl

δ(,):=inf\limits T𝒯sup\limits θΘ12QθTPθTV,[6]

wobei TV die Totalvariationsnorm μTV=μ++μ bezeichnet. Der Faktor 12 hat nur rechnerische Gründe und wird manchmal auch weggelassen.

Erläuterungen

  • δ(,)=0 bedeutet, es existiert ein Übergang T, so dass TPθ=Qθ für alle θΘ gilt.
  • Das Defizit misst, wie gut Qθ von Pθ durch T im Sinne der totalen Variation approximiert werden kann.
  • Das Defizit ist eine Norm für QθTPθ.

Le-Cam-Distanz

Die Le-Cam-Distanz ist folgende Pseudometrik

Δ(,)=δ(,)δ(,)=max(δ(,),δ(,)).

Dies induziert eine Äquivalenzrelation und wenn Δ(,)=0 ist, dann sagt man und sind äquivalent. Die Äquivalenzklasse C von nennt man auch Typ von .

Seien Θ eine Indexmenge und E(Θ) die Menge aller Typen aller Experimente, welche durch Θ indiziert sind, dann ist die Le-Cam-Distanz Δ vollständig bezüglich E(Θ). Die Defizit-Bedingung δ(,)=0 definiert eine Ordnungsrelation auf E(Θ), man sagt ist besser oder informativer oder stärker als .[6] Dies kann nun verwendet werden, um statistische Modelle zu vergleichen.

Häufig interessiert man sich für Familien von Experimenten (n)n mit {Pn,θ:θΘn} und (n)n mit {Qn,θ:θΘn}. Falls Δ(n,n)=0 wenn n, dann sagt man (n)n und (n)n sind asymptotisch äquivalent.

Literatur

Einzelnachweise