Ausreißertest nach Walsh

Aus testwiki
Version vom 9. August 2020, 22:38 Uhr von imported>Leyo (in Seitenbereich Minuszeichen durch Halbgeviertstrich ersetzt)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Der Ausreißertest nach Walsh ist ein statistischer Test, mit dem Ausreißer in einer Stichprobe erkannt werden können. Er setzt keine bestimmte Häufigkeitsverteilung der Daten voraus und zählt deshalb zu den nichtparametrischen Verfahren. Entwickelt wurde der Test vom amerikanischen Statistiker John E. Walsh, der ihn 1950 erstmals beschrieb.

Der Ausreißertest nach Walsh ist nicht von dem Problem der meisten anderen Ausreißertests betroffen, die auf der Annahme einer Normalverteilung basieren und bei Stichproben, deren Werte beispielsweise lognormalverteilt sind, zu falsch-positiven Ergebnissen führen können. Voraussetzung für die Testanwendung ist allerdings ein Stichprobenumfang von mehr als 60 Werten für ein Signifikanzniveau von α=0,10 und von mehr als 220 Werten für α=0,05.

Darüber hinaus muss zur Durchführung des Tests die Zahl der angenommenen Ausreißer a priori angegeben werden. Die Nullhypothese des Tests ist die Annahme, dass alle Beobachtungen zur Stichprobe gehören und die Stichprobe somit keine Ausreißer enthält. Die Alternativhypothese ist demgegenüber, dass die der zur Testdurchführung angegebenen Zahl der angenommenen Ausreißer entsprechenden höchsten beziehungsweise niedrigsten Einzelwerte tatsächlich Ausreißer sind.

Testdurchführung

Nullhypothese Alternativhypothese
H0min: Die r kleinsten Werte gehören zu einer Verteilung. H1min: Die r kleinsten Werte gehören nicht zu einer Verteilung; sind also Ausreißer.
H0max: Die r größten Werte gehören zu einer Verteilung. H1max: Die r größten Werte gehören nicht zu einer Verteilung; sind also Ausreißer.

Folgende Berechnungsschritte werden durchgeführt:

  • c=2n mit x die größte ganze Zahl kleiner als x (abrunden),
  • k=c+r,
  • b=1/α und
  • a=1+bcb2c1cb21.

Gilt nun

  • x(r)(1+a)x(r+1)+ax(k)<0 dann kann die Nullhypothese H0min: zum Signifikanzniveau α verworfen werden oder
  • x(n+1r)(1+a)x(nr)+ax(n+1k)>0 dann kann die Nullhypothese H0max: zum Signifikanzniveau α verworfen werden.

Der Wert x(i) gibt dabei die i kleinste Beobachtung der Stichprobe an; siehe auch Rang (Statistik).

Da der Wert a>0 sein muss, muss gelten: α>12n1. Daher sind für ein Signifikanzniveau von α=10% mindestens 61 Beobachtungen erforderlich, für ein Signifikanzniveau von α=5% mindestens 221 Beobachtungen.

Beispiel

Wenn n=75, α=10% und r=2 dann ist c=12, k=14, b=3,1623, a=2,348. D.h. wenn

  • x(2)3,348x(3)+2,348x(14)<0 dann wird H0min: verworfen bzw.
  • x(74)3,348x(73)+2,348x(62)>0 dann wird H0max: verworfen.

Mathematischer Hintergrund

Walsh betrachtet eine lineare Kombination von Ordnungsstatistiken X(i) der Form

L=X(r)(1+a)X(j)+aX(k) mit 1<j<k und a>0.

Wenn die Nullhypothese H0min gilt, dann folgt j=r+1, wenn die Var(L)(1+o(1)) minimal sein soll. Gilt des Weiteren E(L)=KVar(L)(1+o(1)), so folgt mittels der Tschebyscheff-Ungleichung:

P(X(r)(1+a)X(r+1)+aX(k)<0)=P(L<0)=P(LE(L)Var(L)<K+o(1))1K2+o(1).

Einige, nicht sehr restriktive, Voraussetzungen müssen jedoch erfüllt sein:

  1. Wenn Q(p) die inverse Verteilungsfunktion der Grundgesamtheit bzw. Q(p) deren erste Ableitung ist, dann muss für r<s (allenfalls mit o(n)) unter H0 gelten
    • E(X(r))=Q(sn+1)srn1Q(sn+1)(1+o(1)),
    • Var(X(r))=r(n+1)2(Q(sn+1))2(1+o(1)),
    • Var(X(s))=s(n+1)2(Q(sn+1))2(1+o(1)),
    • Cov(X(r),X(s))=r(n+1)2(Q(sn+1))2(1+o(1)) sowie
    • analogen Bedingungen für n+1r und n+1s.
  2. Für 2n>K2+1 können die o(1) Terme vernachlässigt werden und es ergibt sich dann kr2n.

Literatur

  • Vorlage:Literatur
  • Vorlage:Literatur
  • John Edward Walsh: Large Sample Nonparametric Rejection of Outlying Observations. In: Annals of the Institute of Statistical Mathematics. 10/1958. The Institute of Statistical Mathematics, S. 223–232, Vorlage:ISSN
  • Large Sample Outlier Detection. In: Douglas M. Hawkins: Identification of Outliers. Chapman & Hall, London und New York 1980, ISBN 0-41-221900-X, S. 83/84