Allgemeiner Test

Aus testwiki
Version vom 15. August 2024, 08:09 Uhr von imported>Aka (typografische Anführungszeichen)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Vorlage:Redundanztext Vorlage:Belege Ein allgemeiner Test oder Entscheidungsverfahren ist ein abstraktes Instrument der mathematischen Statistik. Fast alle statistischen Tests, wie bspw. Hypothesentests oder Parameterpunktschätzungen, lassen sich in der Form eines allgemeinen Tests mathematisch erfassen. Ziel eines allgemeinen Tests ist es, auf Grund der (beobachteten) Realisierung einer oder mehrerer zuvor definierter Zufallsgrößen, deren genaue Wahrscheinlichkeitsverteilung i. d. R. nicht bekannt ist, bzgl. einer betrachteten Fragestellung eine Entscheidung zu treffen.

Beispiel: Ein Pharmaunternehmen möchte ein neu entwickeltes Medikament auf seine (unbekannte) Wirksamkeit testen. Hierfür bekommt eine bestimmte Anzahl von Patienten das Medikament verabreicht. Aufgrund der gemessenen Wirkung des Medikaments auf die Patienten muss sich das Pharmaunternehmen nun entscheiden, ob man das neue Medikament auf dem Markt einführt oder lieber weiter auf ein altbewährtes Medikament zurückgreift.

Entscheidet sich das Pharmaunternehmen für die Markteinführung des neuen Medikaments, so besteht die Gefahr, dass dieses durch das verwendete Entscheidungsverfahren nur fälschlicherweise als besser als das alte Medikament eingestuft wurde. In diesem Fall entstünde dem Pharmaunternehmen ein unnötiger Schaden. Um einen solchen zu vermeiden, liegt jedem allgemeinen Test eine sog. Schadensfunktion zugrunde, mit Hilfe derer man versucht durch die Wahl einer „geeigneten“ Entscheidungsfunktion das Risiko einer Entscheidung zu minimieren.

Definition

Gegeben sei ein Messraum (Ω,𝒜) und eine Familie von Wahrscheinlichkeitsmaßen ={PθθΘ} auf 𝒜. Ω umfasst hierbei gerade alle möglichen Realisierungen oder Beobachtungen. Weiter sei 𝒟 eine Menge von möglichen Entscheidungen.

  • Eine Abbildung s:𝒟×Θ+ heißt Schadensfunktion.
  • Eine Abbildung δ:Ω𝒟 heißt genau dann allgemeiner Test, Entscheidungsfunktion oder auch Entscheidungsverfahren, wenn für jedes θΘ die Abbildung ωs(δ(ω),θ) gerade (𝒜,𝔅)-messbar ist. Hierbei bezeichnet 𝔅 die Borelsche σ-Algebra über .

Gütekriterien

Risiko

Es sei 𝒯 eine Klasse von Entscheidungsfunktionen. Für ein Element δ𝒯 bezeichnet man

rδ:Θ+ vermöge rδ(θ):=Ωs(δ(ω),θ) dPθ(ω)

als Risikofunktion. Diese gibt an, welcher Schaden durch die Anwendung des Tests δ im Mittel unter der Verteilung Pθ entsteht. Wegen s0 existiert diese immer, evtl. jedoch uneigentlich. Weiter bezeichnet man

r(δ):=supθΘrδ(θ)

als das Risiko von δ.

Hat man nun weiter eine σ-Algebra 𝒮 über Θ und ein Wahrscheinlichkeitsmaß μ auf (Θ,𝒮) gegeben, so definiert μ eine A-priori-Verteilung oder (subjektive) Vorbewertung auf der Parametermenge. Ist die Risikofunktion θrδ(θ) messbar bzgl. 𝒮, so lässt sich hiermit das sog. Bayesrisiko des Tests δ bzgl. μ einführen, und zwar setzt man dann

rδ(μ):=Θrδ(θ) dμ(θ).

Effizienz

Mit Hilfe des Risikos und der Risikofunktion lassen sich nun zwei allgemeine Tests δ1,δ2𝒯 miteinander vergleichen. Man sagt δ1 ist mindestens so effizient wie δ2, wenn

rδ1(θ)rδ2(θ)θΘ.

Im Falle einer Vorbewertung μ lassen sich die Tests außerdem mit Hilfe des Bayesrisikos vergleichen. Man sagt dann δ1 ist mindestens so effizient wie δ2, wenn rδ1(μ)rδ2(μ).

Optimalität

Die Optimalität eines Tests lässt sich auf verschiedenste Weisen einführen. Man bezeichnet einen Test δ*𝒯 als

  • höchsteffizient in 𝒯, wenn rδ*(θ)=minδ𝒯rδ(θ) θΘ gilt.
  • Minimaxverfahren in 𝒯, wenn r(δ*)=minδ𝒯r(δ) gilt.
  • Bayeslösung in 𝒯 bzgl. μ, wenn rδ*(μ)=minδ𝒯rδ(μ) gilt.
  • multisubjektiv optimal oder 𝔐-Minimaxverfahren in 𝒯, wenn 𝔐 eine Familie von Wahrscheinlichkeitsmaßen auf 𝒮 ist und gilt supμ𝔐rδ*(μ)=minδ𝒯supμ𝔐rδ(μ).

Bei festem Parameter θ ist infδ𝒯rδ(θ) der unvermeidbare Schaden für jeden Test in 𝒯. Für einen guten Test wird man deshalb verlangen, dass

ρ(δ*):=supθΘ(rδ*(θ)infδ𝒯rδ(θ))

möglichst klein wird („minimal regret“). Deshalb bezeichnet man δ* weiter als

  • strengsten Test in 𝒯, wenn ρ(δ*)=minδ𝒯ρ(δ) gilt.

Zusammenhang: Bei den hier aufgeführten Optimalitätskriterien lässt sich die Höchsteffizienz als stärkste Forderung einstufen, denn ist ein Test δ* höchsteffizient in 𝒯, so ist er bereits Minimaxverfahren, Bayeslösung, multisubjektiv optimal und auch strengster Test.

Beispiele

Hypothesentest

Bei einem Hypothesen- oder Signifikanztest betrachtet man zwei sich gegenseitig ausschließende Hypothesen H0 und H1, von denen man in der Regel eine, bspw. H0, versucht aufgrund einer Beobachtung ωΩ zu verwerfen. Die Menge der möglichen Entscheidungen ist deshalb von der Form 𝒟={d1,d2}, wobei man definiert:

d1:= „Hypothese H0 kann verworfen werden.“
d2:= „Hypothese H0 kann nicht verworfen werden, es lässt sich also keine Folgerung aus dem Experiment ziehen.“

Parameterpunktschätzung

Gegeben sei eine Zufallsgröße X:ΩΩ bzgl. zweier Messräume (Ω,𝒜) und (Ω,𝒜), die der Verteilungsfamilie ={PθθΘ} unterliegt. Unbekannt sei hierbei der „wahre“ Parameter θ. Diesen, bzw. allgemeiner einen von θ abhängenden Wert λ(θ), gilt es zu schätzen. Als Entscheidungsraum betrachtet man deshalb 𝒟=λ(Ω). Als Schadensfunktion verwendet man häufig

s:𝒟×Θ+, s(d,θ)=(dλ(θ))2.

Damit ergibt sich für einen Test δ:Ω𝒟 als Risikofunktion die mittlere quadratische Abweichung der Schätzung von dem zu schätzenden Wert, denn

rδ(θ)=Ωs(δ(ω),θ) dPθ(ω)=𝔼θ((δ(X)λ(θ))2).

Parameterbereichsschätzung

Betrachtet wird wieder die Zufallsgröße X. Schätzen möchte man einen Bereich, in dem man den „wahren“ Parameter θ vermutet. Man setzt hierfür 𝒟:=𝔓(Θ){}. Die Leere Menge schließt man als Entscheidung aus, da das Schätzen dieser nicht sinnvoll wäre. Als Schadensfunktion bietet sich die Abbildung s:𝒟×Θ+ mit s(d,θ):=1d(θ) an. Mit ihr erhält man für einen Test δ:Ω𝒟 die Risikofunktion

rδ(θ)=Ωs(δ(ω),θ) dPθ(ω)=Ω1δ(ω)(θ) dPθ(ω)=Pθ({ωθδ(ω)}) ,

d. h. rδ(θ) ist gerade die Wahrscheinlichkeit, mit welcher der Parameter θ nicht in der geschätzten Menge liegt. Man nennt rδ(θ) deshalb auch die Irrtumswahrscheinlichkeit des Verfahrens δ für den Parameter θ. Das Risiko r(δ)=supθΘrδ(θ) bezeichnet man als Signifikanzschranke von δ.