Mann-Whitney-Effekt

Aus testwiki
Version vom 17. Februar 2025, 15:02 Uhr von 129.69.93.18 (Diskussion) (Berechnung des Mann-Whitney Effektes bei bekannten Verteilungen: Fehlenden Bindestrich ergänzt)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Der Mann-Whitney-Effekt beschreibt das Ausmaß des Unterschieds zwischen zwei unabhängigen Stichproben in Bezug auf die Wahrscheinlichkeit, dass eine zufällige Beobachtung aus der einen Gruppe größer oder kleiner ist als eine zufällige Beobachtung aus der anderen Gruppe. In der Literatur wird er auch als relativer Effekt[1], Probabilistic Index[2] oder Stress-Strength Index[3] bezeichnet.

Der Wilcoxon-Mann-Whitney-Effekt ist besonders nützlich, um Unterschiede zwischen zwei Stichproben zu quantifizieren, wenn keine spezifischen Annahmen über die Verteilung der Daten gemacht werden können. Der Effekt kann als eine Wahrscheinlichkeit interpretiert werden und ist der unterliegende Effekt des Wilcoxon-Mann-Whitney und des Brunner-Munzel-Tests.

Definition des Effekts

Formal wird der Mann-Whitney-Effekt als die Wahrscheinlichkeit

θ=P(X<Y)+12P(X=Y)

beschrieben, wobei

  • X eine zufällige Beobachtung aus der ersten Gruppe ist,
  • Y eine zufällige Beobachtung aus der zweiten Gruppe ist.

Der Term 12P(X=Y) ist eine Bindungskorrektur bei Bindungen (Ties).[4] Liegen Bindungen in den Daten vor, z. B. bei diskreten Verteilungen, kann ohne die Bindungskorrektur das Komplement nicht sinnvoll berechnet werden:

P(X<Y)=1P(X>Y).

Mit der Bindungskorrektur gilt allerdings

P(X<Y)+12P(X=Y)=1(P(X>Y)+12P(X=Y)).

Im Fall stetiger Verteilungen gilt θ=P(X<Y)+12P(X=Y)=P(XY)=P(X<Y).

Interpretation

Wenn der Wilcoxon-Mann-Whitney-Effekt 0,5 beträgt, tendieren weder die Daten der einen noch der anderen Gruppe zu größeren oder kleineren Werten. Dies bedeutet, dass eine zufällige Beobachtung aus der ersten Gruppe mit gleicher Wahrscheinlichkeit größer oder kleiner ist als eine Beobachtung aus der zweiten Gruppe. Werte deutlich über oder unter 0,5 deuten auf Unterschiede zwischen den Gruppen hin. Zum Beispiel:

  • Ein Wert von 0,7 bedeutet, dass es eine 70%ige Wahrscheinlichkeit gibt, dass eine zufällig gezogene Beobachtung aus der ersten Gruppe kleiner ist als eine aus der zweiten Gruppe.
  • Ein Wert von 0,3 würde hingegen darauf hindeuten, dass die zweite Gruppe tendenziell größere Beobachtungen aufweist.

Dieser Effekt ist auch als Maß der stochastischen Dominanz bekannt, da er angibt, inwiefern die Beobachtungen der einen Gruppe tendenziell größer oder kleiner sind als die der anderen.

Berechnung des Mann-Whitney-Effektes bei bekannten Verteilungen

Der Wilcoxon-Mann-Whitney-Effekt θ lässt sich allgemein berechnen, wenn die Verteilungen FX(x) und FY(x) der beiden Variablen bekannt sind.

Unter der Annahme normalisierter Verteilungsfunktionen F(x)=P(X<x)+12P(X=x) gilt folgende Integraldarstellung mit Hilfe des Lebesgue-Stieltjes Integrals:

θ=P(X<Y)+12P(X=Y)=FxdFy.

Falls die Verteilungen stetig sind, kann der Effekt somit immer mit Hilfe der Dichtefunktionen fX(x) und fy(x) berechnet werden:

θ=FXdFY=FX(x)fY(x)dx.

Im Allgemeinen Fall gilt diese Vereinfachung nicht.

1. Normalverteilungen

Wenn XN(μ1,σ12) und YN(μ2,σ22) dann folgt die Differenz D=YXN(μ2μ1,σ12+σ22). Die Wahrscheinlichkeit θ entspricht der Wahrscheinlichkeit, dass D>0, und wird durch die kumulative Verteilungsfunktion der Standardnormalverteilung Φ berechnet:

P(X<Y)=Φ(μ2μ1σ12+σ22).

Falls die beiden Varianzen gleich sind, σx2=σy2=σ2, dann gilt

P(X<Y)=Φ(μ2μ12σ).

2. Exponentialverteilungen

Wenn XExp(λ1) und YExp(λ2), ergibt sich P(X<Y) direkt aus den Parametern der Verteilungen:

P(X<Y)=λ1λ1+λ2

Diese Beziehung zeigt, dass die Wahrscheinlichkeit von den Ratenparametern λ1 und λ2 der Exponentialverteilungen abhängt.

Beziehung zur Area under the ROC curve

Der Wilcoxon-Mann-Whitney-Effekt θ steht in direkter Beziehung zur Fläche unter der ROC-Kurve (AUC)[5], die häufig zur Bewertung der Leistungsfähigkeit von Modellen oder der Güte diagnostischer Tests verwendet wird. Die ROC-Kurve selbst wird durch die Sensitivität (True Positive Rate) und den Komplementärwert zur Spezifität (1 - Spezifität, also die False Positive Rate) bei verschiedenen Schwellenwerten des Klassifikators definiert. Die Fläche unter dieser Kurve (AUC) ist somit ein aggregiertes Maß für die Modellleistung oder diagnostischen Güte über alle möglichen Schwellenwerte hinweg. Die AUC misst die Wahrscheinlichkeit, dass ein zufällig ausgewählter positiver Fall einen höheren Score erhält als ein zufällig ausgewählter negativer Fall. Sie ist direkt mit dem Mann-Whitney-Effekt verbunden,

AUC=θ.

Schätzung des Effekts

Der Wilcoxon-Mann-Whitney-Effekt kann durch eine U-Statistik geschätzt werden. Gegeben seien zwei unabhängige Stichproben X1,...,Xn und Y1,,Ym, die aus zwei Verteilungen stammen. Die U-Statistik zur Schätzung des Effekts lautet:

θ^=1mni=1nj=1mc(Xi,Yj).

Hierbei ist c(Xi,Yj) eine Indikatorfunktion (Zählfunktion), die die Werte 1, 1/2, oder 0 annimmt, wenn Xi<Yj,Xi=Yj, oder Xi>Yj gilt.

Eine äquivalente Methode zur Schätzung von θ verwendet die Ränge der gepoolten Stichproben. Dazu werden die Stichproben X1,...,Xnund Y1,,Ym zusammengeführt und die Ränge R(Xi)und R(Yj) (Mid-Ranks) innerhalb der kombinierten Stichprobe bestimmt. Der Schätzer kann dann als normierte Differenz der Rangmittelwerte angegeben werden:

θ^=R¯YR¯XN+12, wobei R¯X das Mittel der Ränge der X-Stichprobe, R¯Y das Mittel der Ränge der Y-Stichprobe darstellt und N=n+m die Gesamtanzahl an Beobachtungen (Fallzahl der kombinierten Stichprobe) darstellt. Diese Formel zeigt, dass der Unterschied in den Rangmittelwerten zwischen den beiden Gruppen die stochastische Dominanz der Verteilungen reflektiert. Dieser Schätzer ist erwartungstreu und konsistent[1].

Anwendungsgebiete

Der Wilcoxon-Mann-Whitney-Effekt wird verwendet, um Unterschiede zwischen zwei Gruppen zu quantifizieren, ohne dass dabei eine Normalverteilung der Daten angenommen werden muss. Typische Anwendungsgebiete umfassen:

  • Medizin: Vergleich der Wirksamkeit von Medikamenten wenn die Resultate nicht normalverteilt sind und in Diagnosestudien zur Bewertung der diagnostischen Güte[6].
  • Sozialwissenschaften: Analyse von Umfragedaten, die auf ordinalen Skalen erhoben werden (z. B. Zufriedenheitsbewertungen).
  • Wirtschaft: Untersuchung von Einkommensverteilungen zwischen verschiedenen Bevölkerungsgruppen.

Vorteile

  • Intuitive Interpretation: Da der Effekt als Wahrscheinlichkeit angegeben wird, ist er leicht verständlich.
  • Robustheit: Der Effekt ist robust gegenüber Ausreißern und nicht auf eine bestimmte Verteilungsform angewiesen.
  • Keine Annahmen über Verteilung: Der Test ist nicht-parametrisch und daher bei ordinalen oder nicht normalverteilten Daten anwendbar.

Einschränkungen

  • Schwache Effekte schwer zu interpretieren: Wenn der Effektwert nahe 0,5 liegt, kann es schwierig sein, daraus eine klare Schlussfolgerung zu ziehen, insbesondere bei kleinen Stichproben.
  • Keine Aussagen über Varianzen: Der Test sagt nichts über die Streuung oder Form der Verteilung, sondern nur über die mittleren Tendenzen.

Mehrstichprobenfall

Im Mehrstichprobenfall wird der Mann-Whitney-Effekt erweitert, um Unterschiede zwischen mehreren Gruppen oder Stichproben zu bewerten. Sei a die Anzahl der Gruppen, und Xi1,Xi2,,Xini die Stichproben der i-ten Gruppe mit ni Beobachtungen in der i-ten Gruppe. Der relative Effekt pifür die i-te Gruppe gibt die Wahrscheinlichkeit an, dass eine zufällig gezogene Beobachtung aus einer mittleren Stichprobe kleiner oder gleich einer zufällig gezogenen Beobachtung aus der i-ten Gruppe ist. Im Mehrstichprobenfall kann der Effekt auf unterschiedliche Art und Weise mit verschiedenen Gewichtungen definiert werden. Am bekanntesten sind der gewichtete und der ungewichtete relative Effekt.

Der gewichtete relative Effekt

Der gewichtete relative Effekt wird für die i-te Gruppe folgendermaßen definiert[7]:

pi=1Nj=1anj[P(Xj1<Xi1)+12P(Xj1=Xi1)],i=1,,a.

Hierbei ist N=i=1ani die Gesamtzahl der Beobachtungen über alle Gruppen ist. Im Grunde genommen liegt der gewichtete relative Effekt allen klassischen Rangtests zu Grunde, z. B. dem Kruskal-Wallis Test. Der Effekt selbst hängt von den Stichprobenumfängen ab. Die Formulierung von Hypothesen in den gewichteten Effekten eignet sich daher nur bedingt.[4]

Der gewichtete relative Effekt kann leicht mit den Rängen der Daten geschätzt werden: Es sei Rik den Rang (Mid-Rank) von Xik unter allen N Beobachtungen. Ein erwartungstreuer und konsistenter Schätzer von pi ist

p^i=1N(Ri12),i=1,,a,

wobei Ri=1nik=1niRik den Mittelwert der Ränge in der i-ten Stichprobe bezeichnet.

Der ungewichtete relative Effekt

Der ungewichtete relative Effekt wird für die i-te Gruppe folgendermaßen definiert:[8]

ψi=1aj=1a[P(Xj1<Xi1)+12P(Xj1=Xi1)]

Im Gegensatz zum gewichteten relativen Effekt hängt der ungewichtete relative Effekt nicht von den Stichprobenumfängen ab und eignet sich zum Testen von Hypothesen.[9] Der ungewichtete relative Effekt kann leicht mit den Pseudo-Rängen der Daten geschätzt werden: Es sei Rik der Pseudo-Rang von Xik unter allen N Beobachtungen. Ein erwartungstreuer und konsistenter Schätzer für ψi ist

ψ^i=1N(Ri12),i=1,,a,

wobei Ri=1nik=1niRik den Mittelwert der Pseudo-Ränge in der i-ten Stichprobe bezeichnet.[9]

Software

Wahre Mann-Whitney Effekte können leicht numerisch mit einer Vielzahl verschiedener Software Programme berechnet werden, wenn die unterliegenden Verteilungen bekannt sind. Falls die Verteilungen stetig sind, können die Effekte mit der Funktion integrate berechnet werden. Beispielsweise kann der Mann-Whitney Effekt von

XN(0,1)

und

Yχ.52

leicht in R berechnet werden:

integrand <- function(x) {pnorm(x,0,1)*dchisq(x,0.5)}
integrate(integrand, lower = -Inf, upper = Inf)

Sind die Verteilungen nicht stetig, z. B. im Fall von diskreten Daten, können die Effekte simulationsbasiert berechnet werden. Der Mann-Whitney Effekt von

XPois(1)

und

YPois(3)

kann aus einer sehr hohen Zahl zufälliger Werte aus den entsprechenden Verteilungen berechnet werden:

x<-rpois(1e6,1)
y<-rpois(1e6,3)
N<-1e6 +1e6
rxy <- rank(c(x,y))
theta <- 1/N*(mean(rxy[(1e6+1):N]) - mean(rxy[1:1e6]))+1/2
theta

Des Weiteren werden die Effekte beispielsweise in den Paketen nparcomp[10] und rankFD[11] geschätzt.

Referenzen