Varianz

Aus testwiki
Version vom 11. November 2024, 17:40 Uhr von imported>-haznK (growthexperiments-addlink-summary-summary:2|0|1)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen

Vorlage:Infobox

Die Varianz (von Vorlage:LaS variantia „Verschiedenheit“ bzw. variare „[ver]ändern, verschieden sein“) ist ein Begriff der Wahrscheinlichkeitsrechnung. Sie ist ein Maß für die Streuung reeller Werte um einen Mittel-, bzw. Erwartungswert. (Die Streuung um einen Erwartungswert stellt dabei die allgemeinere Betrachtungsweise dar. Die Streuung erfasster Werte um ihr arithmetisches Mittel ist dem gegenüber ein Spezialfall und wird hier als empirische Varianz bezeichnet.) Die Varianz wird berechnet, indem das mittlere Abweichungsquadrat aller Werte gebildet wird. Die Quadratwurzel aus der Varianz ergibt die Standardabweichung, ebenfalls ein Streuungsmaß.

Die Standardabweichung ist oft anschaulicher als die Varianz, da sie dieselbe Größenordnung hat wie die beobachteten Werte. Die Varianz ist dafür in weitergehenden Berechnungen oft praktischer: So können beispielsweise Varianzbeiträge von mehreren unabhängigen Zufallseinflüssen einfach addiert werden, und umgekehrt lässt sich durch eine Varianzanalyse eine Gesamtvarianz oft auch in ihre Beiträge (Ursachen) zerlegen.

Eigenschaften

Die Quadrierung der Abweichungen vom Mittelwert bewirkt bei einer endlichen Anzahl reeller Stichprobenwerte:

  • Positive und negative Abweichungen vom Mittelwert heben sich nicht gegenseitig auf.
  • Die Varianz einer Stichprobe ist immer positiv (oder Null, falls alle Stichprobenwerte identisch sind).
  • Eine größere Varianz entspricht einer größeren Unterschiedlichkeit der Werte.
  • Wenige aber starke Ausreißer haben einen großen Einfluss auf das Ergebnis.

Quellen der untersuchten Werte

In der beschreibenden Statistik wird von empirische Varianz (d. h. „aus konkreten Daten berechnete“ Varianz) geredet. Die konkreten Daten ergeben sich häufig als Stichprobe aus einer Gesamtheit aller Daten (Population, Grundgesamtheit). Das führt zur alternativen Bezeichnung als Stichprobenvarianz.

Die Varianz wird in der Stochastik mathematisch allgemeiner behandelt (siehe Varianz (Stochastik)); die empirische Varianz ist also nur ein Spezialfall: Sie basiert in der mathematischen Statistik auf Zufallsvariablen, also auf Funktionen, die dem Ergebnis eines Zufallsexperiments eine Größe zuordnen. Die Zufallsvariablen sind nicht begrenzt auf reelle Werte, und die Anzahl der Werte zur Berechnung der Varianz kann auch unendlich sein. In der mathematischen Statistik ist die Varianz die erwartete quadratische Abweichung von Zufallsvariablen von ihrem Erwartungswert.[1][2][3] Sie wird daher zur Abgrenzung auch als theoretische Varianz bezeichnet.

Durch die Verallgemeinerung können besondere Fälle auftreten:

  • Es gibt Zufallsvariablen, die auf Wahrscheinlichkeitsverteilungen basieren, für die die Varianz nicht definiert ist (z. B. Cauchy-Verteilung).
  • Eine Varianz von Null zeigt nicht unbedingt an, dass alle Zufallsvariablen identische Werte haben.

Die Varianz wird in der Stochastik aus der Verteilung der Zufallsvariablen oder mit Hilfe von Schätzfunktionen bestimmt (siehe Stichprobenvarianz (Schätzfunktion)).

Empirische Varianz

Vorlage:HauptartikelAusgangspunkt ist eine Stichprobe mit reellen Werten, die aus einer Grundgesamtheit ausgewählt (empirisch erhoben) wurden. Wir sprechen daher im Folgenden auch von der „Stichprobenvarianz“. Im Grenzfall umfasst die Stichprobe die gesamte Grundgesamtheit.

Die empirische Varianz ist ein Spezialfall der Varianz in der mathematischen Statistik.

Stichprobe als Teilmenge einer Grundgesamtheit

Zur Ermittlung der Stichprobenvarianz werden zunächst die Abweichungen der beobachteten reellen Werte x1,,xn der Stichprobe von ihrem arithmetischen Mittel (x1x),,(xnx) gebildet. Summierung ergibt die sogenannte Abweichungsquadratsumme i=1n(xix)2.

Wenn die Abweichungsquadratsumme durch n1 dividiert wird, erhält man das mittlere Abweichungsquadrat bzw. die korrigierte Stichprobenvarianz oder korrigierte empirische Varianz: Vorlage:NumBlk

Falls keine Verwechslungsgefahr mit Formel (2) besteht, wird oft auch nur die kürzere Bezeichnung Stichprobenvarianz oder empirische Varianz verwendet[4][5]. Der Vorsatz „korrigierte …“ in der ausführlichen Bezeichnung bezieht sich auf den Faktor 1/(n1), der auch als Bessel-Korrektur bezeichnet wird.[5]

Die Idee dieser Formel (1) ist es, eine Aussage über die erwartete Varianz der Gesamtheit aller Daten zu machen: Die Stichprobe wird verwendet, um die Varianz der Grundgesamtheit zu schätzen. Formel (1) stellt einen erwartungstreuen Schätzer dar. Das bedeutet in diesem Fall, dass der Schätzfehler immer kleiner wird und gegen Null strebt, wenn das Ergebnis über eine steigende Anzahl von Stichproben gemittelt wird. Diese Eigenschaft von Formel (1) lässt sich in der mathematischen Statistik beweisen.

Wenn die Abweichungsquadratsumme nur durch n dividiert wird, erhält man die unkorrigierte Stichprobenvarianz Vorlage:NumBlk Die Idee dieser Formel (2) ist es, den Datensatz möglichst genau durch eine Normalverteilung zu beschreiben: Die Parameter der Normalverteilung μ und σ werden so bestimmt, dass der quadratische Fehler der gegebenen Daten relativ zur Verteilungsfunktion der Normalverteilung minimal ist.[6] Das ist der Fall für μ=x und σ=s~. Formel (2) liefert in diesem Sinne bessere Ergebnisse als Formel (1). Allerdings ist Formel (2) kein erwartungstreuer Schätzer, denn wenn das Ergebnis über viele Stichproben gemittelt wird, dann strebt das Ergebnis nicht gegen den wahren Wert für die Varianz der Grundgesamtheit. Formel (2) liefert im Mittel zu kleine Ergebnisse und wird daher seltener angewendet. Formel (2) wird in der mathematischen Statistik begründet, z. B. durch Anwendung der Maximum-Likelihood-Methode, oder der Momentenmethode.

Für den Sonderfall, dass der Mittelwert der Grundgesamtheit μ bekannt ist, wird die Varianz mit folgender Formel berechnet: Vorlage:NumBlk Formel (3) und (1) unterscheiden sich darin, dass bei Formel (3) die Berechnung des arithmetischen Mittels entfällt, weil der Mittelwert der Grundgesamtheit bekannt ist. Auch diese Formel ist erwartungstreu im Sinne der mathematischen Statistik.

Die Verwendung und Abgrenzung der Bezeichnungen „Stichprobenvarianz“ und „empirische Varianz“ ist in der Literatur nicht einheitlich: Einige Autoren[7] bezeichnen Formel (1) als Stichprobenvarianz und Formel (2) als empirische Varianz.

Stichprobe beinhaltet alle Werte der Grundgesamtheit

Für den Sonderfall, dass die Stichprobe alle N Werte der Grundgesamtheit beinhaltet (N=n), nennt man sie auch Vollerhebung. Der wahre Mittelwert der Grundgesamtheit μ fällt mit dem arithmetischen Mittel x zusammen (μ=x) und berechnet sich aus allen Elementen der Grundgesamtheit als Vorlage:NumBlk Als Konsequenz fallen auch s~2 und s*2 zusammen. Die Varianz der Grundgesamtheit (auch Populationsvarianz genannt) ist dann gleich der Stichprobenvarianz und wird berechnet durch Vorlage:NumBlk

Varianz in der mathematischen Statistik

Vorlage:Hauptartikel Die Varianz ist mathematisch allgemein folgendermaßen definiert:

Sei (Ω,Σ,P) ein Wahrscheinlichkeitsraum und X:ΩA eine Zufallsvariable auf eine Menge A, mit der Ergebnismenge Ω, dem Ereignissystem Σ und dem Wahrscheinlichkeitsmaß P. Mit μ:=𝔼[X] bezeichnen wir den Erwartungswert der Zufallsvariable, sofern dieser existiert. Die Varianz ist dann definiert als erwartete mittlere quadratische Abweichung der Zufallsvariable von ihrem Erwartungswert: Vorlage:NumBlk

Berechnung basierend auf der Wahrscheinlichkeitsverteilung

Nicht jede Wahrscheinlichkeitsverteilung besitzt einen Erwartungswert und eine Varianz (z. B. Cauchy-Verteilung). Und damit ist nicht für jede Zufallsvariable die Varianz definiert.

Es wird unterschieden zwischen stetigen und diskreten Zufallsvariablen:

Stetige Zufallsvariablen

Falls die stetige Zufallsvariable X auf einer Menge A eine Wahrscheinlichkeitsdichtefunktion fX besitzt, dann lässt sich der Erwartungswert und die Varianz wie folgt berechnen:[8] Vorlage:NumBlkVorlage:NumBlk

Diskrete Zufallsvariablen

Sei X eine diskrete Zufallsvariable auf einer Menge A mit Wahrscheinlichkeitsfunktion pX. Dann lässt sich der Erwartungswert und die Varianz wie folgt berechnen: Vorlage:NumBlkVorlage:NumBlk

Berechnung basierend auf Stichprobenvariablen

Vorlage:Hauptartikel Für diesen Fall werden in Formel (1)–(3) die Stichprobenwerte x1,,xn durch die Stichprobenvariablen X1,,Xn ersetzt. Die Stichprobenvariablen sind keine reellen Werte, sondern sie sind Zufallsvariablen: Jede Zufallsvariable X beschreibt die Wahrscheinlichkeit, mit der mögliche Beobachtungswerte x auftreten.

Dies führt zur mathematisch allgemeineren Darstellung der Varianz als Funktion (genauer Stichprobenfunktion) von verschiedenen Zufallsvariablen. Auch hier unterscheidet man die korrigierte Stichprobenvarianz Vorlage:NumBlk und die unkorrigierten Stichprobenvarianzen Vorlage:NumBlkVorlage:NumBlk Die Formeln (1)–(3) sind mathematisch gesehen ein Spezialfall der Formeln (11)–(13). Z. B. ist die empirische Varianz in der beschreibenden Statistik s2 der zur abstrakten Schätzfunktion S2 zugehörige Schätzwert.

In den Verfahren der mathematischen Statistik (Statistische Tests, Konfidenzintervalle etc.) fließt oft der Mittelwert μ oder die Varianz der Grundgesamtheit σ2 ein. In der Praxis sind Mittelwert und Varianz der Grundgesamtheit jedoch unbekannt, so dass sie geschätzt werden müssen. Die Formeln (11)–(13) dienen in der mathematischen Statistik also als Schätzfunktion, um die unbekannte Varianz σ2=Var(X) einer Zufallsvariable X mit unbekannter Verteilung zu schätzen.

Literatur

Einzelnachweise

  1. Bronstein 2020, Kapitel 16.3.1.2: Stichprobenfunktionen
  2. Fahrmeir 2016, Kapitel 5: Diskrete Zufallsvariablen und Kapitel 6: Stetige Zufallsvariablen
  3. Hartung 2005, Kapitel II: Wahrscheinlichkeitsrechnung
  4. Beyer 1988
  5. 5,0 5,1 Kabluchko 2017, Kapitel 1.4: Empirische Varianz
  6. Vorlage:Internetquelle
  7. Fahrmeir 2016, S. 65
  8. Bronstein 2020: Kapitel 16.2.2.3 Erwartungswert und Streuung, S. 827, Formel 16.52.