Multiples Testen

Aus testwiki
Zur Navigation springen Zur Suche springen

Multiples Testen bezeichnet Verfahren der statistischen Testtheorie, bei denen mehrere statistische Tests simultan durchgeführt werden.

Überblick über Verfahren des multiplen Testens

Unter dem Begriff multiples Testen werden verschiedene Verfahren zusammengefasst, bei denen eine – in der Regel endliche – Anzahl von statistischen Tests simultan durchgeführt wird. Es können drei Gruppen unterschieden werden, die das Konzept des Fehlers 1. Art, das ist die fälschliche Ablehnung einer Nullhypothese, auf unterschiedliche Art für mehrere Test verallgemeinern. Wenn mindestens eine Nullhypothese fälschlich abgelehnt wird, liegt ein multipler Fehler 1. Art vor.

Multiple Tests mit vorgegebenem globalem Signifikanzniveau

Für eine Familie von Nullhypothesen wird die Wahrscheinlichkeit, dass mindestens eine Nullhypothese abgelehnt wird, falls alle Nullhypothesen richtig sind, kontrolliert, d. h. durch ein vorgegebenes Signifikanzniveau α(0,1) nach oben beschränkt. In diesem Fall heißt das Signifikanzniveau globales Signifikanzniveau. Diese erste Gruppe von Verfahren testet mit Hilfe der Einzeltests eine Globalhypothese, die als Durchschnitt der einzelnen Nullhypothesen definiert ist.

Multiple Tests mit vorgegebenem multiplem Signifikanzniveau

Bei dieser Gruppe multipler Testverfahren wird für eine Familie von Nullhypothesen die Wahrscheinlichkeit, dass mindestens eine Nullhypothese fälschlich abgelehnt wird, kontrolliert, d. h. durch ein Signifikanzniveau α(0,1), das dann multiples Signifikanzniveau heißt, nach oben beschränkt.

Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen

Bei dieser Gruppe von Testverfahren wird die erwartete Fehlerquote der Ablehnungen (englisch: false discovery rate, FDR), das ist der erwartete Anteil fälschlicher Ablehnungen von Nullhypothesen unter allen abgelehnten Nullhypothesen, kontrolliert.[1][2]

Grundbegriffe

Gegeben sei eine Familie von k Test mit den Nullhypothesen Hj:θΘj für j=1,,k, wobei ΘjΘ für j=1,,k gilt. Die entsprechenden Gegenhypothesen sind Kj:θΘΘj für j=1,,k. Eine simultane Durchführung der k Tests wird multipler Test genannt.

Multipler Fehler 1. Art

Bei der Durchführung eines multiplen Tests sind mehrere Testergebnisse möglich: es wird keine Nullhypothese abgelehnt oder es wird mindestens eine der Nullhypothesen abgelehnt. Im Extremfall werden alle Nullhypothesen abgelehnt. Die übliche Verallgemeinerung des Konzeptes der Fehlerwahrscheinlichkeit 1. Art für einen einzelnen Test auf multiple Tests ist der multiple Fehler 1. Art, der begangen wird, wenn bei mindestens einem Einzeltest eine Nullhypothese fälschlich abgelehnt wird.

Definition: Für einen simultanen Test mehrerer Nullhypothesen heißt das Testergebnis „Mindestens eine Nullhypothese wird fälschlich abgelehnt“ multipler Fehler 1. Art.[3]

Multiple Fehlerwahrscheinlichkeit 1. Art

Definition: Für einen simultanen Test mehrerer Nullhypothesen heißt die Wahrscheinlichkeit, dass ein multipler Fehler 1. Art begangen wird, multiple Fehlerwahrscheinlichkeit 1. Art (engl.: family-wise error rate, FWER)[4] oder versuchsbezogene Irrtumswahrscheinlichkeit[5] (engl.: experimentwise error rate).

Multipler Test zum lokalen Signifikanzniveau

Das einfachste Vorgehen beim multiplen Testen ist, jeden Einzeltest mit demselben vorgegebenen Signifikanzniveau durchzuführen, so dass bei jedem Einzeltest die Fehlerwahrscheinlichkeit 1. Art nach oben beschränkt ist.

Definition: Ein multipler Test, bei dem jeder Einzeltest das Signifikanzniveau α(0,1) einhält, für den also

Pθ({Hj wird abgelehnt})αfür alle θΘj und jedes j=1,,k

gilt, heißt multipler Test zum lokalen Signifikanzniveau α(0,1).

Ein multipler Test zum lokalen Signifikanzniveau α kontrolliert zwar die Fehlerwahrscheinlichkeiten 1. Art für jeden Einzeltests, da diese durch α nach oben beschränkt werden. Die Wahrscheinlichkeit für die fälschliche Ablehnung einer oder mehrerer der Nullhypothese beim simultanen Testen wird aber nur teilweise kontrolliert. Für einen multiplen Test zum lokalen Signifikanzniveau α sind die Wahrscheinlichkeiten FWERθ nicht durch α nach oben beschränkt. Es gilt[6] lediglich die Ungleichung

FWERθmin{kα,1} für θΘ,

die aber für größere k nicht zu einer praktikablen Beschränkung führt. Z. B. für α=0,05 wird für k20 für die obere Schranke der Wert Eins erreicht. Diese Problematik wird auch mit dem Begriff Alphafehler-Kumulierung bezeichnet und motiviert Verfahren zur Kontrolle des multiplen Fehlers 1. Art.

Multiple Tests zu vorgegebenem globalem Signifikanzniveau

Test einer Durchschnittshypothese

Zu einer Familie von k Nullhypothesen H1:θΘ1,,HkΘk mit ΘjΘ für j=1,,k sei

Θ0:=j=1kΘj

eine nicht-leere Teilmenge von Θ. Dann heißt die Durchschnittshypothese

H0:θΘ0

Globalhypothese und die einzelnen Nullhypothesen heißen in diesem Zusammenhang Elementarhypothesen.[7] Die Globalhypothese H0 ist falsch, wenn mindestens eine der Hypothesen H1,,Hk falsch ist. Ein Test der Globalhypothese kann daher durch k simultane Tests der Elementarhypothesen erfolgen, wobei H0 abgelehnt wird, falls mindestens eine der Hypothesen H1,,Hk abgelehnt wird.

Definition: Ein simultaner Test der k Nullhypothesen H1:θΘ1,,Hk:θΘk mit Θ0=Θ1Θk, der zu einem vorgegebenen Signifikanzniveau α(0,1) die Eigenschaft

FWERθα für alle θΘ0

hat, heißt multipler Test zum globalen Signifikanzniveau α.[8]

Konstruktionsverfahren

Einen multiplen Test zum globalen Signifikanzniveau α erhält man regelmäßig nicht dadurch, dass man die einzelnen Tests jeweils zum Niveau α durchführt, das es dann zur Alphafehler-Kumulierung kommt, die im Extremfall dazu führt, dass das globale Niveau den Wert min{1,kα} hat.

Das Problem der Alphafehler-Kumulierung hat eine allgemeine Lösung in Form der Bonferroni-Korrektur, die für die Durchführung des einzelnen Tests das Niveau αlokal=α/k vorschreibt, wodurch das globale Niveau α garantiert ist.

Unter bestimmten Voraussetzungen Situationen kann die Šidák-Korrektur angewendet werden, die zu einer Verbesserung gegenüber der Bonferroni-Korrektur führt, da das lokale Signifikanzniveau der Einzeltests weniger stark abgesenkt werden muss. Eine Voraussetzung ist die stochastische Unabhängigkeit der Tests, womit gemeint ist, dass die Teststatistiken der einzelnen Tests stochastisch unabhängig sind. Eine alternative Voraussetzung ist, dass die Teststatistiken eine gemeinsame multivariate Normalverteilung besitzen und die Abnahmebereiche Intervalle sind, die symmetrisch zum jeweiligen Erwartungswert sind.

Für einen multiplen Test zum globalen Niveau α ist die multiplen Fehlerwahrscheinlichkeit 1. Art für die Familie von Elementarhypothesen identisch mit der Fehlerwahrscheinlichkeit 1. Art des Tests der Globalhypothese, es gilt also

Pθ({H0 wird abgelehnt})=FWERθfür alle θΘ0.

In Spezialfällen ist das Testen der Durchschnittshypothese auch ohne Verwendung der Einzeltests möglich. Beispiele sind Tests über einen Parametervektor, z. B. das Testen der allgemeinen linearen Hypothese im multiplen linearen Regressionsmodell, die mit einer Teststatistik durchgeführt werden. Diesen Fall bezeichnet man im engeren Sinn nicht als multiples Testen, da es sich um einen Test für die Hypothese eines Parametervektors handelt, er wird allerdings dem Bereich der simultanen Inferenzverfahren zugeordnet.

Schwache und starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art

Die Reduktion des Test einer Familie von Hypothesen H1,,Hk auf den Test der Globalhypothese H0 mit Hilfe einzelner Tests ist eine mögliche Fragestellung, aber nicht die einzige und typische Behandlungsmöglichkeit multipler Tests.[9] Durch die Vorgabe eines globalen Signifikanzniveaus wird die multiple Fehlerwahrscheinlichkeit 1. Art nur eingeschränkt kontrolliert, da die Ungleichung FWERθα nur für alle θΘ0 gilt, man spricht daher auch von einer schwachen Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Im Unterschied dazu liegt eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art vor, falls

FWERθα für alle θΘ

gilt. Für multiple Tests, bei denen die Globalhypothese nicht von eigenständigem Interesse ist, ist die schwache Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art wenig sinnvoll. „Weak control is typically not very meaningful, and so when we refer to control of the FWER, we mean strong control.“[10]

Multiple Tests zu vorgegebenem multiplem Signifikanzniveau

Gegeben sei eine Familie von k Test mit den Nullhypothesen Hj:θΘj für j=1,,k, wobei ΘjΘ für j=1,,k gilt.

Wie oben definiert liegt ein multipler Fehler 1. Art vor, wenn mindestens ein Nullhypothese fälschlich verworfen wird. Wenn die multiple Fehlerwahrscheinlichkeit für alle θΘ kontrolliert, d. h. durch eine vorgegebenes Signifikanzniveau nach oben beschränkt wird, nennt man dieses ein multiples Signifikanzniveau.

Definition: Ein simultaner Test der Nullhypothesen H1:θΘ1,,HkΘk mit der Eigenschaft

FWERθαfür alle θΘ

heißt multipler Test zum multiplen Signifikanzniveau α.[11]

Der entscheidende Unterschied zu einem Test zum globalen Niveau ist, das die Wahrscheinlichkeit fälschlicher Ablehnungen nicht nur für θΘ0, sondern für alle θΘ kontrolliert wird, wobei die fälschliche Ablehnung einer Nullhypothese nur für θj=1kΘjΘ möglich ist, da in Θj=1kΘj alle Nullhypothesen falsch sind.

Verfahren zur starken Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art

Eine allgemeine Methode, um einen multiplen Test zum multiplen Signifikanzniveau α zu erhalten, ist das Bonferroni-Verfahren, das darin besteht, für die Einzeltests die adjustierten Signifikanzniveaus α/k vorzugeben. Mit diesem Vorgehen ist eine starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art gewährleistet.[12][13][14] Es gibt zahlreiche Modifikationen und Verfeinerungen für bestimmte Anwendungsfälle oder für den Fall, dass bestimmte zusätzliche Voraussetzungen erfüllt sind.

Für stochastisch unabhängige Tests verlangt die Šidák-Korrektur die adjustierten Signifikanzniveaus 1(1α)1/k, um die starke Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art zu gewährleisten.[15]

Das Holm-Verfahren oder Bonferroni-Holm-Verfahren ist eine schrittweise Prozedur, die bei den einzelnen Schritten unterschiedliche Signifikanzniveaus verwendet.[16][17] Unter der stark einschränkenden Voraussetzung der stochastischen Unabhängigkeit der Teststatistiken ergibt sich mit dem Simes-Hochberg-Verfahren.[18][19] eine Verbesserung des Bonferroni-Holm-Verfahrens.[20]

Multiple Tests mit Beschränkung der erwarteten Fehlerquote der Ablehnungen

Eine alternative Idee das Konzept der Fehlerwahrscheinlichkeit 1. Art für einen einzelnen Test auf multiple Tests zu übertragen, den erwarteten Anteil fälschlich abgelehnter Nullhypothesen unter allen abgelehnten Nullhypothesen zu kontrollieren.[21][22]

Zu einem fixierten multiplen Test mit vorgegebenem Signifikanzniveau α und einem Parameter θΘ bezeichne R(θ) die zufällige Anzahl abgelehnter Nullhypothesen und V(θ) die zufällige Anzahl fälschlich abgelehnter Nullhypothesen.[23] Die Zufallsvariablen R(θ) und V(θ) nehmen Werte in einer Teilmenge von {0,1,,k} an, wobei

0V(θ)R(θ)k

gilt und daher aus R(θ)=0 auch V(θ)=0 folgt. Falls für den betrachteten Parameter alle Hypothesen richtig sind, kann R(θ) alle Werte in {0,1,,k} annehmen, falls für den betrachteten Parameter alle Nullhypothesen falsch sind, gilt R(θ)=V(θ)=0.

Fehlerquote der Ablehnungen

Zu einem bestimmten θ bezeichnet die Zufallsvariable

FDPθ={V(θ)R(θ),falls R(θ)>00,falls R(θ)=0

die zufällige Fehlerquote der Ablehnungen (englisch: false discovery proportion, FDP).[24] Die Fehlerquote der Ablehnungen ist der Anteil der fälschlich abgelehnten Nullhypothesen an allen abgelehnten Nullhypothesen. Die Zufallsvariable FDPθ hat eine diskrete Wahrscheinlichkeitsverteilung mit Werten in einer Teilmenge der Menge {0,1/k,,(k1)/k,1}.

Erwartete Fehlerquote der Ablehnungen

Vorlage:Hauptartikel Der Erwartungswert der Zufallsvariablen FDPθ,

FDRθ=Eθ(FDPθ),

ist die erwartete Fehlerquote der Ablehnungen (englisch: false discovery rate, FDR).[25]

Die erwartete Fehlerquote der Ablehnungen ist im Fall k=1 die Wahrscheinlichkeit, die einzige Nullhypothese fälschlich abzulehnen, und damit die Fehlerwahrscheinlichkeit 1. Art. Somit ist die erwartete Fehlerquote der Ablehnungen eine Verallgemeinerung des Konzeptes der Fehlerwahrscheinlichkeit 1. Art für multiple Test.

Die erwartete Fehlerquote der Ablehnungen ist durch die multiple Fehlerwahrscheinlichkeit 1. Art nach oben beschränkt, es gilt also

FDRθFWERθfür alle θΘ,

wobei im Allgemeinen das strikte Ungleichheitszeichen gilt.[26] Die Anforderungen für eine Kontrolle von FDRθ durch eine Oberschranke sind also im Allgemeinen schwächer als die für die Kontrolle der multiplen Fehlerwahrscheinlichkeit 1. Art. Die Kontrolle der multiplen Fehlerwahrscheinlichkeit erster Art durch ein vorgegebenes Niveau α impliziert also die Kontrolle der erwarteten Fehlerquote der Ablehnungen.

Verfahren zur Kontrolle der erwarteten Fehlerquote der Ablehnungen

Eine Methode zur Kontrolle der erwarteten Fehlerquote der Ablehnungen ist das Benjamini-Hochberg-Verfahren[27][28], das allerdings die stochastische Unabhängigkeit der p-Werte voraussetzt. Das Benjamini-Yekutieli-Verfahren[29] ist eine Verallgemeinerung für eine bestimmte Art der positiven Abhängigkeit, die den Fall der stochastischen Unabhängigkeit als Grenzfall enthält.[30]

Güteeigenschaften multipler Tests

Typischerweise ist ein Hauptkriterium statistischer Tests die Beschränkung der Fehlerwahrscheinlichkeit 1. Art. Bei multiplen Tests ergeben sich spezielle Gütekriterien aus der Eigenschaft, dass die betrachteten Nullhypothesen geschachtelt sein können, also z. B. Θ1Θ2 gilt.

Kohärenz

Die Kohärenz[31] eines multiplen Tests verlangt, dass im Fall Θ1Θ2 aus der Ablehnung von H2:θΘ2 auch die Ablehnung von H1:θΘ1 folgt. „Diese Eigenschaft ist aus logischen Gründen für einen multiplen Test unverzichtbar“[31]. Beispielsweise darf bei einem simultanen Vergleich von drei Mittelwerten μ1,μ2,μ3 nicht die Nullhypothese H12:μ1=μ2 abgelehnt werden, aber gleichzeitig die Nullhypothese H123:μ1=μ2=μ3 nicht abgelehnt werden.

Konsonanz

Die Konsonanz[31] eines multiplen Test bedeutet im Fall einer Familie von drei Hypothesen mit Θ1Θ3 und Θ2Θ3, dass dann, wenn H3:θΘ3 abgelehnt wird, auch mindestens eine der stärkeren Hypothesen H1:θΘ1 und H2:θΘ2 abgelehnt wird. „Diese Eigenschaft ist für einen multiplen Test nur wünschenswert, aber nicht unbedingt erforderlich.“[31]

Beispielsweise sollte bei einem simultanen Vergleich von drei Mittelwerten μ1,μ2,μ3 nicht die Konstellation eintreten, dass die Nullhypothese H123:μ1=μ2=μ3 abgelehnt wird, H12:μ1=μ2 abgelehnt werden, aber gleichzeitig die drei Nullhypothesen μ1=μ2, μ1=μ3 und μ2=μ3 nicht abgelehnt werden.

Abgeschlossenheit

Für bestimmte mehrstufige Testverfahren ist es wichtig, dass die Familie der Hypothesen eine gewisse Abgeschlossenheit hat, diese bedeutet z. B., dass dann, wenn für zwei Hypothesen H1:θΘ1 und H2:θΘ2 die Menge Θ1Θ2 nicht-leer ist, auch die Hypothese H:θΘ1Θ2 in der Hypothesenfamilie enthalten ist.[31]

Trennschärfe

Es gibt Verallgemeinerungen des Konzeptes der Fehlerwahrscheinlichkeit 2. Art und damit der Konzepte der Trennschärfe oder Macht eines Tests für multiple Tests.[32]

Verschiedene Arten multipler Testung

Es gibt verschiedene Arten der multiplen Testung, die sich in der Formulierung der Nullhypothese unterscheiden[33].

Manchmal ist ein multiples Testproblem mit einer abweichenden Notation für die Hypothesen zu finden[34], die beim Vergleich mit der obigen Notation leicht zu Irritationen führt. Es werden dann die k Alternativhypothesen mit H1,H2,,Hk bezeichnet und mit H0 wird die simultane Verneinung aller Alternativhypothesen H1,H2,,Hk bezeichnet. Beim so definierten multiplen Test ist H0 richtig, wenn alle Hi falsch sind, und ist H0 falsch, wenn mindestens eine der Hypothesen Hi richtig ist.

Literatur

Einzelnachweise und Anmerkungen

  1. Vorlage:Literatur
  2. Vorlage:Literatur
  3. Vorlage:Literatur
  4. Der englische Begriff family-wise error rate für die multiple Fehlerwahrscheinlichkeit 1. Art hat keine direkt entsprechende deutsche Übersetzung gefunden. Insbesondere wäre eine wörtliche Übersetzung irreführend, da im Deutschen 'Rate' im Allgemeinen einen zeitlichen Bezug hat und nicht für eine Wahrscheinlichkeit benutzt wird.
  5. Vorlage:Literatur
  6. Iθ bezeichne für jedes θΘ die Menge der wahren Nullhypothesen und Aj bezeichne das Ereignis „Hj wird abgelehnt“. Dann ist jIθAj das Ereignis, dass mindestens eine Nullhypothese fälschlich abgelehnt wird. Es gilt
    FWERθ=Pθ(jIθAj)jIθkPθ(Aj)|Iθ|αkαfür alle θΘ.
  7. Vorlage:Literatur
  8. Vorlage:Literatur
  9. Vorlage:Literatur
  10. Vorlage:Literatur
  11. Vorlage:Literatur
  12. Vorlage:Literatur
  13. Vorlage:Literatur
  14. Vorlage:Literatur
  15. Vorlage:Literatur
  16. Vorlage:Literatur
  17. Vorlage:Literatur
  18. Vorlage:Literatur
  19. Vorlage:Literatur
  20. Vorlage:Literatur
  21. Vorlage:Literatur
  22. Vorlage:Literatur
  23. Vorlage:Literatur
  24. Vorlage:Literatur
  25. Vorlage:Literatur
  26. Vorlage:Literatur
  27. Vorlage:Literatur
  28. Vorlage:Literatur
  29. Vorlage:Literatur
  30. Vorlage:Literatur
  31. 31,0 31,1 31,2 31,3 31,4 Vorlage:Literatur
  32. Vorlage:Literatur
  33. When to adjust alpha during multiple testing: A consideration of disjunction, conjunction, and individual testing https://arxiv.org/abs/2107.02947
  34. Vorlage:MathWorld