Erwartungstreue Schätzung der Varianz der Störgrößen

Aus testwiki
Zur Navigation springen Zur Suche springen

In der Statistik ist die erwartungstreue Schätzung der Varianz der Störgrößen, auch erwartungstreue Schätzung der Fehlervarianz genannt, ein Punktschätzer, der die Güteeigenschaft aufweist, dass er unbekannte Varianz der Störgrößen erwartungstreu schätzt, falls die Gauß-Markow-Annahmen zutreffen.

Einführung in die Problemstellung

Die Fehlervarianz, auch Restvarianz, Versuchsfehler, Störgrößenvarianz[1], Varianz der Störgrößen, nicht erklärte Varianz, unerklärte Varianz, bezeichnet mit σ2, ist die Varianz der Regressionsfunktion in der Grundgesamtheit und damit die Varianz der Fehlerterme bzw. Störgrößen. Die Fehlervarianz σ2=E[(εiE(εi))2],i=1n ist ein unbekannter Parameter, der anhand der Stichprobeninformation geschätzt werden muss. Sie bemisst diejenige Variation, die auf die Messfehler bzw. Störgrößen zurückzuführen sind. Ein erster naheliegender Ansatz wäre, die Varianz der Störgrößen wie gewöhnlich mit der Maximum-Likelihood-Schätzung zu schätzen (siehe klassischen linearen Modells der Normalregression). Allerdings ist dieser Schätzer problematisch, wie im Folgenden erläutert wird.

Erwartungstreuer Schätzer für die Varianz der Störgrößen

Einfache lineare Regression

Obwohl für die homoskedastische Varianz in der Grundgesamtheit Var(yX=x)=Var(β0+β1x+ε)=Var(ε)=σ2=konst. manchmal angenommen wird, dass sie bekannt ist, muss man davon ausgehen, dass sie in den meisten Anwendungsfällen unbekannt ist (beispielsweise bei der Schätzung von Nachfrageparametern in ökonomischen Modellen, oder Produktionsfunktionen). Da die Störgrößenvarianz einen unbekannten Wert besitzt, können die numerischen Werte der Varianzen des Steigungsparameters und des Absolutglieds nicht geschätzt werden, da die Formeln von dieser abhängen. Jedoch kann aus den vorliegenden Daten eine Schätzung dieser Größen vorgenommen werden.[2] Ein naheliegender Schätzer der Störgrößen εi ist das Residuum ε^i=yiy^i, wobei y^i=β^0+β^1xi die Stichproben-Regressionsfunktion darstellt. Die in den Residuen steckende Information könnte also für einen Schätzer der Störgrößenvarianz genutzt werden. Weil E(εi2)=σ2 gilt, ist σ2 aus frequentistischer Sicht der „Mittelwert“ von εi2. Die Größe εi2 ist aber unbeobachtbar, da die Störgrößen unbeobachtbar sind. Wenn man statt εi2 nun das beobachtbare Pendant ε^i2 benutzt, führt dies zum folgenden Schätzer für die Störgrößenvarianz

s~2=1ni=1nε^i2=1nε^ε^=1ni=1n(yiβ^0β^1xi)2=1nSQR,

wobei SQR die Residuenquadratsumme darstellt. Dieser Schätzer ist das Stichprobenmittel der geschätzten Residuenquadrate und könnte zur Schätzung der Störgrößenvarianz genutzt werden.[3] Man kann zeigen, dass die obige Definition ebenfalls dem Maximum-Likelihood-Schätzer entspricht (s~2=σ^ML2). Allerdings erfüllt der Schätzer nicht gängige Qualitätskriterien für Punktschätzer und wird daher nicht oft genutzt.[4] Beispielsweise ist der Schätzer nicht erwartungstreu für σ2. Dies liegt daran, dass der Erwartungswert der Residuenquadratsumme E(ε^ε^)=σ2(np) ergibt und daher für den Erwartungswert dieses Schätzers E(σ^ML2)=npnσ2 gilt.[5] In der einfachen linearen Regression lässt sich unter den Voraussetzungen des klassischen Modells der linearen Einfachregression zeigen, dass eine erwartungstreue Schätzung für σ2, d. .h eine Schätzung, die E(σ^2)=σ2 erfüllt, gegeben ist durch

σ^2=s2=1n2i=1n(yiβ^0β^1xi)2=1n2SQR,

wobei vorausgesetzt wird, dass n>2. Diese erwartungstreue Schätzung für σ2 ist das mittleres Residuenquadrat und wird gelegentlich als Residualvarianz bezeichnet. Die Quadratwurzel dieser erwartungstreuen Schätzung bzw. der Residualvarianz wird als Standardfehler der Regression bezeichnet.[6] Die Residualvarianz kann als mittlerer Modellschätzfehler interpretiert werden und bildet die Grundlage für alle weiteren Berechnungen (Konfidenzintervalle, Standardfehler der Regressionsparameter etc.). Sie unterscheidet sich zu obigen Ausdruck in der Hinsicht, dass die Residuenquadratsumme um die Anzahl der Freiheitsgrade adjustiert wird. Intuitiv lässt sich diese Adjustierung damit erklären, dass man durch die Schätzung der beiden unbekannten Regressionsparameter β0 und β1 zwei Freiheitsgrade verliert.

Wie bereits oben erwähnt ist eine erwartungstreue Schätzung für σ2 in der einfachen linearen Regression gegeben durch

σ^2=s2=1n2i=1n(yiβ^0β^1xi)2,

wobei β^1=i=1n(xix)(yiy)i=1n(xix)2 und β^0=yβ^1x die Kleinste-Quadrate-Schätzer für β0 und β1 sind.

Um die Erwartungstreue zu zeigen, benutzt man die Eigenschaft, dass sich die Residuen als Funktion der Störgrößen darstellen lassen als ε^i=εi(β^0β0)(β^1β1)xi.[7][8] Des Weiteren wird die Eigenschaft benutzt, dass die Varianz des KQ-Schätzers β^1 gegeben ist durch Var(β^1)=σ21i=1n(xix)2. Außerdem ist zu beachten, dass der Erwartungswert des KQ-Schätzers β^1 gegeben ist durch β1 und gleiches gilt für β^0.[9] Die Erwartungstreue für σ2 lässt sich wie folgt beweisen:

E(σ^2)=E(1n2i=1nε^i2)=E(1n2i=1n(ε^iε^)2)=E(1n2i=1n(ε^i(ε(β^0β0)(β^1β1)x))2)=E(1n2i=1n(εi(β^0β0)(β^1β1)xi(ε(β^0β0)(β^1β1)x))2)=E(1n2i=1n((εiε)(β^1β1)(xix))2)=E(1n2i=1n((εiε)22(εiε)(β^1β1)(xix)+(β^1β1)2(xix)2))=1n2E(i=1n(εiε)22(β^1β1)i=1nεi(xix)+(β^1β1)2i=1n(xix)2)=1n2(E(i=1n(εiε)2)2E((β^1β1)i=1nεi(xix))+E((β^1β1)2i=1n(xix)2))=1n2((n1)σ22E((β^1β1)2)i=1n(xix)2+E((β^1β1)2)i=1n(xix)2)=1n2((n1)σ22Var(β^1)i=1n(xix)2+Var(β^1)i=1n(xix)2)=1n2((n1)σ22σ2+σ2)=1n2(nσ2σ2+σ22σ2)=1n2(n2)σ2=σ2.

Mit dem erwartungstreuen Schätzer lassen sich ebenfalls die Varianzen der KQ-Schätzer β^0 und β^1 schätzen. Beispielsweise lässt sich Var(β^1) schätzten, indem man σ2 durch σ^2 ersetzt. Die geschätzte Varianz des Steigungsparameters ist dann gegeben durch

Var(β^1)^=1n2i=1nε^i2i=1n(xix)2.

Multiple lineare Regression

In der multiplen linearen Regression ist die erwartungstreue Schätzung der Varianz der Störgrößen bzw. die Residualvarianz gegeben durch

σ^2=SQR/(nk1)=i=1n(yi𝐱iβ^)2nk1=ε^ε^nk1=(𝐲𝐗𝐛)(𝐲𝐗𝐛)nk1,

wobei 𝐛=(𝐗𝐗)1𝐗𝐲 den Kleinste-Quadrate-Schätzer und 𝐱i die i-te Zeile der Versuchsplanmatrix 𝐗 darstellt. Alternativ lässt sich die erwartungstreue Schätzung der Varianz der Störgrößen im multiplen Fall darstellen als

σ^2=𝐲𝐲𝐛𝐗𝐲nk1.

Diese Darstellung ergibt sich aus der Tatsache, dass man die Residuenquadratsumme i=1nε^i2=i=1n(yiy^i)2 schreiben kann als 𝐲𝐲𝐛𝐗𝐲. Eine weitere alternative Darstellung der Residualvarianz ergibt sich aus der Tatsache, dass sich die Residuenquadratsumme mittels der residuenerzeugenden Matrix auch darstellen lässt als SQR=ε^ε^=ε𝐐ε. Damit ergibt sich für die Residualvarianz

σ^2=𝐲𝐲𝐛𝐗𝐲nk1=𝐲𝐐𝐲nk1=ε𝐐εnk1

Diese Schätzung kann wiederum benutzt werden, um die Kovarianzmatrix des KQ-Schätzvektors zu berechnen. Wenn nun σ2 durch σ^2 ersetzt wird, ergibt sich für die geschätzte Kovarianzmatrix des KQ-Schätzvektors

Σ^𝐛=σ^2(𝐗𝐗)1=ε^ε^nk1(𝐗𝐗)1.

Regression mit stochastischen Regressoren

Bei der Regression mit stochastischen Regressoren mit der stochastischen Regressormatrix 𝐙 ist die Erwartungstreue Schätzung der Varianz der Störgrößen ebenfalls gegeben durch

σ^2=(𝐲𝐙𝐛)(𝐲𝐙𝐛)nk1.

Die Erwartungstreue kann mittels des Gesetzes des iterierten Erwartungswertes gezeigt werden.

Einzelnachweise

  1. Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6., durchges. u. aktualisierte Auflage. 2013.
  2. Ludwig von Auer: Ökonometrie. Eine Einführung. Springer, ISBN 978-3-642-40209-8, 6., durchges. u. aktualisierte Auflage. 2013, S. 191.
  3. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York / Chichester / Brisbane / Toronto / Singapore 1988, ISBN 0-471-62414-4, S. 170.
  4. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 109.
  5. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 109.
  6. Karl Mosler und Friedrich Schmid: Wahrscheinlichkeitsrechnung und schließende Statistik. Springer-Verlag, 2011, S. 308.
  7. Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 5. Auflage. Nelson Education 2015
  8. Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education, 2015, S. 55.
  9. Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education, 2015, S. 55.