Verallgemeinerte Kleinste-Quadrate-Schätzung

Aus testwiki
Zur Navigation springen Zur Suche springen

Vorlage:Dieser Artikel In der Statistik ist die Verallgemeinerte Kleinste-Quadrate-Schätzung (kurz VKQ-Schätzung) oder verallgemeinerte Methode der kleinsten Quadrate, kurz VMKQ, (Vorlage:EnS generalized least squares, kurz GLS) eine Prozedur, um unbekannte wahre Regressionsparameter in einer linearen Regressionsgleichung, unter problematischen Voraussetzungen (vorliegen von Autokorrelation und Heteroskedastizität), effizient zu schätzen. Die VKQ-Methode kann benutzt werden, um bei einem Modell mit einer allgemeinen Störgrößenstruktur zielführend eine lineare Regression durchzuführen. Eine verallgemeinerte Störgrößenstruktur liegt vor, wenn ein bestimmter Grad an Korrelation zwischen den Residuen und eine nicht konstante Störgrößenvarianz zulässig sind. In diesen Fällen können die gewöhnliche Kleinste-Quadrate-Schätzung und die gewichtete Kleinste-Quadrate-Schätzung statistisch ineffizient sein oder sogar zu falschen Resultaten der statistischen Inferenz führen. Aus diesem Grund wird, um valide Resultate der statistischen Inferenz zu erhalten, eine Transformation des klassischen linearen Modells durchgeführt, durch welche die benötigten Annahmen für die statistische Inferenz weiterhin erfüllt sind. Die VKQ-Methode minimiert im Gegensatz zur gewöhnlichen Methode der kleinsten Quadrate eine gewichtete Residuenquadratsumme. Sie wurde von Alexander Aitken entwickelt und 1934 veröffentlicht und wird daher auch Aitken-Schätzung genannt.

Geschichte

Carl Friedrich Gauß
Alexander Aitken

Am Neujahrstag 1801 entdeckte der italienische Astronom Giuseppe Piazzi den Zwergplaneten Ceres. 40 Tage lang konnte er die Bahn verfolgen, dann verschwand Ceres hinter der Sonne. Im Laufe des Jahres versuchten viele Wissenschaftler erfolglos, anhand von Piazzis Beobachtungen die Bahn zu berechnen – unter der Annahme einer Kreisbahn, denn nur für solche konnten damals die Bahnelemente aus beobachteten Himmelspositionen mathematisch ermittelt werden. Der 24-jährige Gauß hingegen konnte auch elliptische Bahnen aus drei Einzelbeobachtungen berechnen. Da aber deutlich mehr Bahnpunkte vorlagen, wandte er seine Methode der kleinsten Quadrate an, um so die Genauigkeit zu erhöhen. Als Franz Xaver von Zach und Heinrich Wilhelm Olbers im Dezember 1801 den Kleinplaneten genau an dem von Gauß vorhergesagten Ort wiederfanden, war das nicht nur ein großer Erfolg für Gauß’ Methode: Piazzis Ruf, der aufgrund seiner nicht zu einer Kreisbahn passen wollenden Bahnpunkte stark gelitten hatte, war ebenfalls wiederhergestellt.[1]

Den Grundstein der verallgemeinerten Methode der kleinsten Quadrate legte Gauß schon 1795 im Alter von 18 Jahren. Basis war eine Idee von Pierre-Simon Laplace, die Beträge von Fehlern aufzusummieren, so dass sich die Fehler zu Null addieren. Gauß nahm stattdessen die Fehlerquadrate und konnte die Nullsummen-Anforderung an die Fehler weglassen. Unabhängig davon entwickelte der Franzose Adrien-Marie Legendre dieselbe Methode erstmals im Jahr 1805 am Schluss eines kleinen Werkes über die Berechnung der Kometenbahnen[2] und veröffentlichte eine zweite Abhandlung darüber im Jahr 1810. Von ihm stammt der Name Méthode des moindres carrés (Methode der kleinsten Quadrate).

1809 publizierte Gauß dann im zweiten Band seines himmelsmechanischen Werkes Theoria motus corporum coelestium in sectionibus conicis solem ambientium (Theorie der Bewegung der Himmelskörper, welche in Kegelschnitten die Sonne umlaufen) sein Verfahren,[3] inklusive der Normalgleichungen und des Gaußschen Eliminationsverfahrens.[4] Dabei erwähnte er, dass er es schon vor Legendre entdeckt und benutzt habe, was zu einem Prioritätsstreit zwischen den beiden führte. Die Methode der kleinsten Quadrate wurde nun schnell das Standardverfahren zur Behandlung von astronomischen oder geodätischen Datensätzen.

Gauß benutzte dann das Verfahren intensiv bei seiner Vermessung des Königreichs Hannover durch Triangulation. 1821 und 1823 erschien die zweiteilige Arbeit sowie 1826 eine Ergänzung zur Theoria combinationis observationum erroribus minimis obnoxiae (Theorie der den kleinsten Fehlern unterworfenen Kombination der Beobachtungen),[5] in denen Gauß eine Begründung liefern konnte, weshalb sein Verfahren im Vergleich zu den anderen so erfolgreich war: Die Methode der kleinsten Quadrate ist in einer breiten Hinsicht optimal, also besser als andere Methoden. Die genaue Aussage ist als der Satz von Gauß-Markow bekannt, da die Arbeit von Gauß wenig Beachtung fand und schließlich im 20. Jahrhundert von Andrei Andrejewitsch Markow wiederentdeckt und bekannt gemacht wurde. Die Theoria Combinationis enthält ferner wesentliche Fortschritte beim effizienten Lösen der auftretenden linearen Gleichungssysteme, wie das Gauß-Seidel-Verfahren und die LR-Zerlegung.[6]

Schließlich veröffentlichte Alexander Aitken 1935 eine Arbeit, in der er das Konzept der verallgemeinerten kleinsten Quadrate und den viel verwendeten verallgemeinerten kleinsten Quadrate-Schätzer einführte.[7] Ebenso bewies er dort, dass dieser von ihm eingeführte Schätzer Beste Lineare Erwartungstreue Schätzfunktion, kurz BLES (Vorlage:EnS Best Linear Unbiased Estimator, kurz: BLUE) ist, d. h. in der Klasse der linearen erwartungstreuen Schätzern derjenige mit der kleinsten Kovarianzmatrix ist. Aitken wendete außerdem die statistischen Methoden auf die Theorie der linearen Modelle an und entwickelte die Notation, die man heutzutage als Standard-Vektor-Matrix-Notation betrachtet.[8] Aitken veröffentlichte zusammen mit einem seiner Studenten namens Harold Silverstone eine Arbeit, in der sie die untere Grenze der Varianz eines Schätzers einführten,[9] auch bekannt als Cramér-Rao-Ungleichung. Im Gegensatz zu Vorgängern fand er einen effizienten Weg, um das Problem einer nicht konstanten Varianz und korrelierten Störtermen zu lösen. Die verallgemeinerte Kleinste-Quadrate-Schätzung baut auf der Gauß-Markov-Theorie auf und spielt immer noch eine große Rolle in theoretischen und praktischen Aspekten der statistischen Inferenz in verallgemeinerten linearen (multiplen) Regressionsmodellen.[10]

Ausgangslage

Da viele Variablen des Interesses nicht nur von einer unabhängigen Variablen abhängen, betrachten wir eine abhängige Variable, die durch mehrere unabhängige Variablen erklärt werden soll. Zum Beispiel ist die Gesamtproduktion einer Volkswirtschaft von dessen Kapitaleinsatz, Arbeitseinsatz und dessen Fläche abhängig. Solch eine multiple Abhängigkeit kommt der Realität viel näher und man gibt die Annahme der einfachen linearen Regression auf, bei der die Variable des Interesses nur von einer Variablen abhängt. Um solch eine multiple Abhängigkeit zu modellieren, betrachten wir als Ausgangslage ein typisches multiples lineares Regressionsmodell mit gegebenen Daten {yt,xtk}t=1,,T,k=1,,K für T statistische Einheiten. Hierbei ist zu beachten, dass wir zusätzlich zur Dimension der unabhängigen Variablen auch eine zeitliche Dimension integrieren, wodurch sich ein lineares Gleichungssystem ergibt was sich auch matriziell darstellen lässt. Der Zusammenhang zwischen der abhängigen Variablen und den unabhängigen Variablen kann wie folgt dargestellt werden

yt=xt1β1+xt2β2++xtKβK+εt=𝐱tβ+εt,t=1,2,,T.

In Vektor-Matrix-Form auch

Vorlage:Center

oder in kompakter Schreibweise

𝐲=𝐗β+ε

Hier stellt β einen Vektor von unbekannten Regressionsparametern dar, die mithilfe der Daten geschätzt werden müssen. Des Weiteren wird angenommen, dass die Störgrößen im Mittel null sind: 𝔼(ε)=𝟎, was bedeutet, dass wir davon ausgehen können, dass unser Modell im Mittel korrekt ist. Für gewöhnlich stellt man an ein solches Modell die Anforderung, dass die Gauß-Markow-Annahmen gelten sollen. Dies soll hier aber nicht der Fall sein, da man nicht opportunistisch von problematischen Voraussetzungen ausgeht. Aus diesem Grund wird ein Modell betrachtet, bei dem eine allgemeine Störgrößenstruktur zulässig ist.

Das verallgemeinerte lineare Regressionsmodell (VLR)

Weiterhin wird für das Modell angenommen, dass der Erwartungswert von 𝐲 linear in β ist. Die Matrix Φ stellt die Kovarianzmatrix der Störgrößen dar, wobei Ψ als eine beliebige bekannte reelle nichtsinguläre positiv definite T×T Matrix angenommen wird und σ2 ein noch unbekannter Skalar darstellt. Die Besonderheit im Gegensatz zur gewöhnlichen Methode der kleinsten Quadrate ist, dass Heteroskedastizität (d. h., dass die Varianz der Störterme bedingt auf die erklärenden Variablen nicht konstant ist) und Autokorrelation (d. h. ein Korrelieren der Störterme) erlaubt ist:

  1. Die Varianz der Störgrößen könnte heteroskedastisch sein:
    Cov[ε]=𝔼(εε)=σ2Ψ=Φσ2𝐈T
    Wenn die Varianz der Residuen (und somit die Varianz der erklärten Variablen selbst) für alle Ausprägungen der Regressoren nicht unterschiedlich ist, liegt Homoskedastizität ((Residuen-)Varianzhomogenität) vor. Falls diese Annahme verletzt ist spricht man von Heteroskedastizität.
  2. Die Störgrößen könnten voneinander nicht unabhängige Zufallsvariablen sein, d. h. autokorreliert sein:
    ts:𝔼(εtεs)0.
    D. h., die Annahme der Abwesenheit von Autokorrelation könnte verletzt sein.

Für die Matrix Φ gibt es je nach Kontext unterschiedliche Definitionen. Bei Vorliegen von Heteroskedastizität nimmt sie folgende Form an[11]

Φ=σ2Ψ=σ2(w11000w22000wTT)=(σ112000σ222000σTT2)

und bei Vorliegen von Autokorrelation die Form

Φ=σ2Ψ=σ2(1a1aT1a11aT2aT1aT21).

Ein Modell der Form 𝐲=𝐗β+ε mit ε(𝟎,σ2Ψ), wobei Rang(Ψ)=T, heißt verallgemeinertes (multiples) lineares Regressionsmodell (mit fixen Regressoren), kurz VLR.[12] Es ist dabei zu beachten, dass sich σ2 immer als konstanter Faktor aus der Matrix ziehen lässt. Das Skalar σ2 stellt einen beliebigen konstanten Proportionalitätsfaktor[13] dar. Manchmal ist es nützlich – insbesondere bei Heteroskedastizität – anzunehmen, dass σ2=1. Die Annahme ist äquivalent zur Aussage, dass die Kovarianzmatrix Ψ vollständig bekannt ist. Wenn man Φ=σ2Ψ schreibt, wobei Ψ bekannt ist und σ2 unbekannt ist dann sagt man damit, dass es nicht notwendig ist anzunehmen, dass die Kovarianzmatrix Φ vollständig bekannt sein muss; es ist ausreichend anzunehmen, dass Ψ bekannt ist (die Matrix, die man erhält, nachdem man einen beliebigen unbekannten Skalierungsparameter σ2 herauszieht).[14] Man kann das verallgemeinerte lineare Regressionsmodell mit heteroskedastischer Störgrößenkovarianzmatrix Φ:=σ2Ψ durch geeignete Wahl von Ψ auf das gewöhnliche multiple Regressionsmodell mit homoskedastischer Störgrößenkovarianzmatrix Σ:=σ2𝐈 zurückführen.

Die Auswirkungen der Anwendung der gewöhnlichen Methode der kleinsten Quadrate (KQ)

Auswirkungen auf Eigenschaften der Punktschätzer

Als einen ersten naiven Ansatz nehmen wir an, der Kleinste-Quadrate-Schätzer 𝐛, der durch die Minimierung der Residuenquadratsumme gewonnen wird, wäre ein zielführender Kandidat für den Punktschätzer für β bei einem Modell mit einer allgemeinen Störgrößenstruktur; dann ist der Residualvektor gegeben durch ε=𝐲𝐗𝐛. Es wird jedoch ersichtlich, dass der Punktschätzer β für bei einem Modell mit allgemeiner Störgrößenstruktur zwar erwartungstreu, aber nicht mehr effizient ist. Beim naiven Ansatz ist die Kovarianzmatrix nicht mehr gleich σ2(𝐗𝐗)1, sondern sie ist gegeben durch

Cov(β^)=𝔼((𝐛𝔼(𝐛))(𝐛𝔼(𝐛)))=𝔼((𝐗𝐗)1𝐗εε𝐗(𝐗𝐗)1)=(𝐗𝐗)1𝐗𝔼(εε)𝐗(𝐗𝐗)1=(𝐗𝐗)1𝐗Φ𝐗(𝐗𝐗)1=(𝐗𝐗)1𝐗(σ2Ψ)𝐗(𝐗𝐗)1=σ2(𝐗𝐗)1𝐗Ψ𝐗(𝐗𝐗)1σ2(𝐗𝐗)1.

Dies resultiert vor allem daraus, dass eine nichtkonstante Störgrößenvarianz (Heteroskedastizität) zulässig ist. Wenn man nämlich davon ausgeht, dass keine Heteroskedastizität gegeben ist (Ψ=𝐈), dann ergibt sich wieder die Kovarianzmatrix der gewöhnlichen Methode der kleinsten Quadrate (Cov(𝐛)=σ2(𝐗𝐗)1).

Bei Vorliegen einer nichtskalaren Einheits-Kovarianzmatrix lässt sich zeigen, dass die Eigenschaft der Erwartungstreue des Kleinste-Quadrate-Schätzers weiterhin erfüllt ist, jedoch ist sie nicht mehr für die Varianz der Störgrößen erfüllt. Für die Varianz der Störgrößen gilt nämlich, dass sie keine Erwartungstreue Schätzung der Varianz der Störgrößen ist[15]

𝔼(σ^2)=σ2Spur(Ψ(𝐈(𝐗𝐗)1𝐗))TKσ2.

Sie ist somit ein verzerrter Schätzer für die wahre Varianz σ2.[16]

Auswirkungen auf Hypothesentests

Eine wichtige Auswirkung ergibt sich für die Intervallschätzung und Prozeduren der Hypothesentests. Die Resultate der statistischen Inferenz sind nicht länger gültig, da die oben dargestellten Resultate für die Kovarianzmatrix von 𝐛 implizieren, dass wir fälschlicherweise σ^2(𝐗𝐗)1 benutzen, um σ2(𝐗𝐗)1𝐗Ψ𝐗(𝐗𝐗)1 zu schätzen. Da dies ein verzerrter Schätzer ist, führt dies zu nicht validen Resultaten der statistischen Inferenz. Eine weitere Konsequenz für die Inferenz ist, dass die benötigte Teststatistik für allgemeine lineare Hypothesen nicht mehr F-verteilt ist. Aus diesem Grund sollte man die Intervallschätzung auf dem verallgemeinerten Kleinste-Quadrate-Schätzer aufbauen[17] oder robuste Standardfehler à la Eicker-Huber-White Standardfehler benutzen.

Herleitung des verallgemeinerten Kleinste-Quadrate-Schätzers (VKQ)

Aus obigen ersten naiven Ansatz wird deutlich, dass die Methode der kleinsten Quadrate bei einer allgemeinen Störgrößenstruktur nicht zielführend ist, da sie zu Ineffizienzen führt. Aus diesem Grund besteht die Notwendigkeit diese Ineffizienzen zu beseitigen, indem das Verfahren der verallgemeinerten Methode der kleinsten Quadrate angewandt wird. Die verallgemeinerte Methode der kleinsten Quadrate schätzt β, indem der quadrierte Mahalanobis-Abstand des Residualvektors minimiert wird:

β^=argmin𝐛(𝐲𝐗𝐛)Ψ1(𝐲𝐗𝐛).[18][19]

Da der Ausdruck eine quadratische Form in 𝐛 ist, ist das Resultat der Minimierung:

β^VKQ=(𝐗Ψ1𝐗)1𝐗Ψ1𝐲.

Der Schätzer β^VKQ heißt verallgemeinerter Kleinste-Quadrate-Schätzer, kurz VKQ-Schätzer oder Aitken-Schätzer (Vorlage:EnS generalized least squares estimator, kurz: GLSE). Die Kovarianzmatrix des verallgemeinerten Kleinste-Quadrate-Schätzers ist gegeben durch:

Σβ^VKQ=σ2(𝐗Ψ1𝐗)1.

Der durch das Minimierungsproblem gegebene Punktschätzer für β ist Beste Lineare Erwartungstreue Schätzfunktion (Best Linear Unbiased Estimator). Ein anderer Ansatz um den VKQ-Schätzer zu bekommen ist durch eine Transformation des multiplen linearen Modells.

Transformation des multiplen linearen Modells

Die VKQ-Methode ist äquivalent zu der Anwendung einer linearen Transformation auf die gewöhnliche Methode der kleinsten Quadrate (Vorlage:EnS ordinary least squares, kurz OLS), ähnlich zu Whitening (Statistik). Der Transformationsfaktor der Varianz der Störgrößen Ψ=𝑷1𝑷1 kann durch die Cholesky-Zerlegung gewonnen werden. Anschließend werden beide Seiten des Modells 𝐲=𝐗β+ε mit 𝑷 multipliziert. Das verallgemeinerte lineare Modell lässt sich über die Transformationen 𝐲*=𝑷𝐲, 𝐗*=𝑷𝐗, und ε*=𝑷ε in ein klassisches lineares Modell überführen

𝐲*=𝐗*β+ε*.

Eigenschaften der transformierten Störgrößen

Weiterhin stellt sich die Frage, was die transformierten Störgrößen im Mittel ergeben. In diesem Modell gilt für die transformierten Störgrößen ε* ebenfalls, dass sie im Mittel Null ergeben, da

𝔼(ε*)=𝔼(𝑷ε)=𝑷𝔼(ε)=𝟎.

Die Eigenschaft gewährleistet, dass man im Mittel das wahre Modell schätzt und nicht eine verzerrte Form. Für die Kovarianzmatrix der transformierten Störgrößen gilt

Cov(ε*)=Cov(𝑷ε)=𝑷Cov(ε)𝑷=σ2𝑷Ψ𝑷.

Damit die Homoskedastizitätsannahme erfüllt ist, wird 𝑷Ψ𝑷 so bestimmt, dass 𝑷Ψ𝑷=𝐈, wobei 𝐈 die Einheitsmatrix darstellt (weil Ψ eine positiv definite Matrix ist existiert immer eine Matrix mit der Eigenschaft 𝑷Ψ𝑷=𝐈). Also ist für das transformierte Modell bei dieser Festlegung die Homoskedastizitätsannahme Cov[ε*]=σ2𝐈 und auch alle anderen Gauß-Markov-Annahmen erfüllt. Dadurch, dass man 𝑷Ψ𝑷=𝐈 setzt folgt[20]

Ψ=(𝑷1)((𝑷)1)Ψ1=𝑷𝑷.

Dieses Resultat wird später noch für die Berechnung des VKQ-Schätzers benötigt. Da das transformierte Modell die Gauß-Markow-Annahmen erfüllt, muss der Kleinste-Quadrate-Schätzer dieses Modells gegeben sein durch

β^=((𝑷𝐗)𝑷𝐗)1(𝑷𝐗)(𝑷𝐲)=(𝐗*𝐗*)1𝐗*𝐲*

und beste lineare erwartungstreue Schätzfunktion (BLES) sein. Anders ausgedrückt

β^=(𝐗𝑷𝑷𝐗)1𝐗𝑷𝑷𝐲.

Mithilfe des obigen Resultates für Ψ1 ergibt sich schließlich bei diesem Ansatz ebenfalls der VKQ-Schätzer

β^VKQ=(𝐗Ψ1𝐗)1𝐗Ψ1𝐲.

Man kann zeigen, dass multiplizieren der Störgrößenkovarianzmatrix mit einem Skalar den Wert des VKQ-Schätzer nicht ändert:

β^VKQ=(𝐗Ψ1𝐗)1𝐗Ψ1𝐲=(𝐗Φ1𝐗)1𝐗Φ1𝐲.

gilt.

Eigenschaften

Störgrößen-Kovarianzmatrix

Die Kovarianzmatrix der Störgrößen entspricht bei der verallgemeinerten Kleinste-Quadrate-Schätzung

σ^VKQ2=(𝐲𝐗β^VKQ)Ψ1(𝐲𝐗β^VKQ)TK.

Maximum-Likelihood-Schätzung (MLS)

Im Falle einer nichtskalaren Kovarianzmatrix, wie sie bei der verallgemeinerten Methode der kleinsten Quadrate zum Einsatz kommt, lässt sich die gemeinsame Wahrscheinlichkeitsdichte aus einer Maximum-Likelihood-Schätzung eines klassischen linearen Modells der Normalregression schreiben als:

t=1Tft(yt𝐱t,β,σ2)=f(𝐲𝐗,β,σ2)=(2πσ2)T2|Ψ|12exp{(𝐲𝐗β)Ψ1(𝐲𝐗β)2σ2},

wobei |Ψ| die Determinante von Ψ darstellt.

Erwartungstreue

Der VKQ-Schätzer ist erwartungstreu, d. h., er trifft im Mittel den wahren Parametervektor, da sein Erwartungswert gleich dem wahren Wert entspricht

𝔼(β^VKQ)=𝔼((𝐗Ψ1𝐗)1𝐗Ψ1𝐲)=𝔼((𝐗Ψ1𝐗)1𝐗Ψ1(𝐗β+ε))=β+𝔼((𝐗Ψ1𝐗)1𝐗Ψ1ε)=β.

Dies impliziert, dass keine Verzerrung vorhanden ist. Somit ist die Verteilung des VKQ-Schätzers gegeben durch

β^VKQ𝒩(β,σ2(𝐗Ψ1𝐗)1) .

Beste lineare erwartungstreue Schätzfunktion (BLES)

Es lässt sich zeigen, dass der VKQ-Schätzer eine beste lineare erwartungstreue Schätzfunktion ist. Ein Schätzer ist „besser“ als ein anderer, wenn er eine kleinere Varianz aufweist, da die Varianz ein Maß für die Unsicherheit ist. Somit ist der beste Schätzer dadurch gekennzeichnet, dass er eine minimale Varianz und somit die geringste Unsicherheit aufweist. Für alle anderen linearen erwartungstreuen Schätzer β^j gilt somit

Var(β^VKQi)Var(β^j).

Da der VKQ-Schätzer BLES ist, bedeutet dies, dass er mindestens so gut wie der gewöhnliche KQ-Schätzer sein muss. Die Effizienz dieses Ansatzes wird ersichtlich, weil die Differenz

D=Cov(𝐛)Cov(β^)=σ2((𝐗𝐗)1𝐗Ψ𝐗(𝐗𝐗)1(𝐗Ψ1𝐗)1)=σ2𝐀Ψ𝐀

positiv semidefinit ist, was bedeutet, dass die Kovarianzmatrix des KQ-Ansatzes (bei Vorliegen von Heteroskedastizität (Φ=σ2Ψ)) die Variation überschätzt und somit „größer“ als die durch die verallgemeinerte Kleinste-Quadrate-Schätzung gewonnene Kovarianzmatrix ist (siehe auch Kovarianzmatrix). Der KQ-Schätzer entspricht dem VKQ-Schätzer wenn die Differenz D gleich die Nullmatrix ist, also wenn:

A:=(𝐗𝐗)1𝐗(𝐗Ψ1𝐗)1𝐗Ψ1=𝟎.[21]

Asymptotische Eigenschaften

Eine asymptotische Eigenschaft ist, dass die über T Summanden gemittelte Produktsummenmatrix in Wahrscheinlichkeit zu einer positiv definiten, endlichen, nichtsingulären Matrix 𝑽 konvergiert:

plim(𝐗Ψ1𝐗T)=𝑽.

Aus dieser Eigenschaft folgt die Konsistenz des VKQ-Schätzers und der Varianz des VKQ-Schätzers und die Eigenschaft, dass der Schätzer in Verteilung gegen eine Normalverteilung konvergiert. Die letzte Eigenschaft ist für die statistische Inferenz von Bedeutung.

Konsistenz

Der VKQ-Schätzer ist unter den bisherigen Annahmen erwartungstreu 𝔼(β^VKQ)=β, wobei die Stichprobengröße T keinen Einfluss auf die Unverzerrtheit hat (schwaches Gesetz der großen Zahlen). Ein Schätzer ist genau dann konsistent für den unbekannten Parameter, wenn er in Wahrscheinlichkeit gegen den wahren Wert konvergiert. Die Eigenschaft der Konsistenz bezieht also das Verhalten des Schätzers mit ein, wenn die Anzahl der Beobachtungen größer wird.

Für die Folge (β^VKQt)t gilt unter oben genanntem asymptotischem Resultat, dass sie in Wahrscheinlichkeit gegen den wahren Parametervektor konvergiert

ϵ>0:limt(|β^VKQtβ|ϵ)=0β^VKQpβ,

oder vereinfacht ausgedrückt:

plim(β^VKQ)=β

Der VKQ-Schätzer ist konsistent für β. Die Eigenschaft besagt, dass mit steigender Stichprobengröße die Wahrscheinlichkeit, dass der Schätzer β^VKQ vom wahren Parameter β abweicht, sinkt. Für die Varianz der VKQ-Schätzers gilt ebenfalls, dass sie konsistent für σ2 ist:

plim(σ^VKQ2)=σ2.
Konvergenz gegen Normalverteilung

Eine weitere Eigenschaft der VKQ-Schätzers ist, dass T(β^VKQβ) in Verteilung gegen eine Normalverteilung konvergiert

T(β^VKQβ) d 𝒩(0,σ2𝑽1).

Diese asymptotische Normalität ist vor allem für die statistische Inferenz von Bedeutung.

Prädiktionsmatrix

Die Prädiktionsmatrix des VKQ-Schätzers ist gegeben durch

P=𝐗(𝐗Ψ1𝐗)1𝐗Ψ1

Es kann gezeigt werden, dass P2=PP=P, nicht mehr symmetrisch ist.

Durchführbare verallgemeinerte KQ-Schätzung (GVKQ)

In der Praxis ist die Kovarianzmatrix der Störgrößen Ψ1 oft unbekannt, sodass die verallgemeinerte Methode der kleinsten Quadrate nicht durchführbar ist. Ein konsistenter Schätzer für Ψ1 ist gegeben durch Ψ^1.[22] In diesem Fall, bei dem die Matrix Ψ1 geschätzt werden muss, spricht man auch von der anwendbaren bzw. durchführbaren verallgemeinerten KQ-Schätzung (Vorlage:EnS Feasible Generalized Least Squares, kurz FGLS) oder auch von der geschätzten verallgemeinerten KQ-Schätzung bzw. GVKQ-Schätzung (Vorlage:EnS Estimated Generalised Least Squares, kurz EGLS); dessen Schätzer wird der geschätzte VKQ-Schätzer, kurz GVKQ-Schätzer genannt. Er ist gegeben durch:

β^^GVKQ=(𝐗Ψ^1𝐗)1𝐗Ψ^1𝐲.

Es ist wichtig zu erwähnen, dass die Kovarianzmatrix Ψ (T(T+1))/2 Elemente besitzt und somit nicht durch nur T geschätzte Störgrößenvektoren ε^ geschätzt werden kann. Aus diesem Grund wird angenommen, dass die Elemente in Ψ Funktionen einer kleinen Anzahl von unbekannten Parametern sind.

Gewichtete kleinste Quadrate (GKQ)

Vorlage:Hauptartikel Einen Spezialfall der VKQ-Methode stellt die sogenannte gewichtete Methode der kleinsten Quadrate (Vorlage:EnS weighted least squares, kurz WLS) dar. Sie wird angewendet, wenn alle Elemente neben der Hauptdiagonalen von Ψ Null sind. Diese Methode wird angewendet, wenn die Varianzen der beobachteten Werte nicht konstant sind (d. h., es liegt Heteroskedastizität vor) und keine Korrelation zwischen den beobachteten Störgrößen vorliegt. Das Gewicht der Einheit i (wi) ist proportional zum Reziproken der Varianz der endogenen Variablen der Einheit i.[23] Das Optimalitätskriterium ist die gewichtete Residuenquadratsumme

GKQ(β)=argminβi=1n1wi(yi𝐱iβ)2=(𝐲𝐗β)𝐖1(𝐲𝐗β)mit𝐖=diag(w1,,wn).

Anwendungen

Multiplikative Heteroskedastizität

Falls die Annahme der Homoskedastizität nicht erfüllt ist, d. h. die Diagonalelemente der Kovarianzmatrix nicht identisch sind, ergibt sich folgendes Modell:

yt=𝐱tβ+εtt=1,,T mit
𝔼(ε)=𝟎 und Cov(ε)=𝔼(εε)=σ2Ψ=Φ

Allgemeine Kovarianzmatrix bei Heteroskedastizität:

𝔼(εε)=(σ12000σ22000σT2)=σ2Ψ=Φ

Hierbei wird angenommen, dass Ψ eine bekannte, reelle, positiv definite und symmetrische Matrix der Dimension T×T ist.

Falls die spezielle Form der multiplikativen Heteroskedastizität vorliegt, nimmt die allgemeine Kovarianzmatrix folgende Form an:

𝔼(εε)=(exp(𝐳1α)000exp(𝐳2α)000exp(𝐳Tα))=σ2Ψ=Φ[24]

Bei Vorliegen dieser Form der Heteroskedastizität lässt sich die verallgemeinerte Kleinste-Quadrate-Schätzung.

Scheinbar unverbundene Regression

Die scheinbar unverbundene Regression (Vorlage:EnS: seemingly unrelated regression, kurz SUR), welche eine Verallgemeinerung des linearen Regressionsmodells ist, beinhaltet eine Vielzahl von Regressionsgleichungen, die jede ihre eigene abhängige Variable und potentiell verschiedene erklärende Variablen hat. Jede Gleichung selbst ist eine valide lineare Regression und kann separat von den anderen geschätzt werden. Dadurch ergibt sich ein System von Gleichungen, welches scheinbar unverbunden genannt wird. Da die Störgrößenkovarianzmatrix der scheinbar unverbundenen Regression die Struktur:

Cov(𝐞)=𝔼(𝐞𝐞)=(E(𝒆1𝒆1)E(𝒆1𝒆N)E(𝒆N𝒆1)E(𝒆N𝒆N))=(σ11𝐈Tσ1N𝐈TσN1𝐈TσNN𝐈T)=(σ11σ1NσN1σNN)𝐈T=Σ𝐈T=Φ

hat, ergibt sich bei der scheinbar unverbundenen Regression folgender VKQ-Schätzer:

β^VKQ=(𝐗(Σ1𝐈)𝐗)1𝐗(Σ1𝐈)𝐲.

Es kann gezeigt werden, dass dieser VKQ-Schätzer äquivalent zum KQ-Schätzer ist, wenn man in obige Formel den Querschnitt 𝐗 der Daten einsetzt.

Beweis
β^VKQ=(𝐗(Σ1𝐈)𝐗)1𝐗(Σ1𝐈)𝐲=((𝐈𝐗)(Σ1𝐈)(𝐈𝐗))1(𝐈𝐗)(Σ1𝐈)𝐲=(Σ1𝐗𝐗)1(Σ1𝐗)𝐲=(Σ(𝐗𝐗)1)(Σ1𝐗)𝐲=(𝐈(𝐗𝐗)1𝐗)𝐲=((𝐈𝐗)(𝐈𝐗))1(𝐈𝐗)𝐲=(𝐗𝐗)1𝐗𝐲=𝐛.

Siehe auch

Literatur

Einzelnachweise und Anmerkungen

  1. Vorlage:ADB, S. 436.
  2. Adrien-Marie Legendre: Nouvelles méthodes pour la détermination des orbites des comètes. Paris 1805, S. 72–80 (Anhang): Sur la Méthode des moindres quarrés.
  3. Carl Friedrich Gauß: Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Göttingen 1809; Carl Haase (Übers.): Theorie der Bewegung der Himmelskörper, welche in Kegelschnitten die Sonne umlaufen. Hannover 1865.
  4. Matrices and determinants
  5. Carl Friedrich Gauß: Theoria combinationis observationum erroribus minimis obnoxiae. 2 Tle. Göttingen 1821–1823 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, Bd. 5.); Supplementum Theoria combinationis observationum erroribus minimis obnoxiae. Göttingen 1826/28 (Commentationes Societatis Regiae Scientiarum Gottingensis recentiores, classis mathematicae, Bd. 6.); Anton Börsch Paul Simon (Hrsg.): Abhandlungen zur Methode der kleinsten Quadrate von Carl Friedrich Gauss. In deutscher Sprache. Berlin 1887.
  6. Pete Stewart, 21. Juni 1991: Maybe We Should Call It “Lagrangian Elimination”, NA Digest Sunday, June 30, 1991 Volume 91, Issue 26.
  7. Vorlage:Cite journal
  8. Robertnowlan: Alexander AitkenVorlage:Toter Link
  9. A. C. Aitken, H. Silverstone: On the Estimation of Statistical Parameters. In: Proceedings of the Royal Society of Edinburgh, 1942, 61, S. 186–194.
  10. Takeaki Kariya, Hiroshi Kurata: Generalized Least Squares
  11. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 328.
  12. Fritz Pokropp: Lineare Regression und Varianzanalyse 2015, ISBN 978-3-486-78668-2, S. 108 (abgerufen über De Gruyter Online).
  13. Fritz Pokropp: Lineare Regression und Varianzanalyse 2015, ISBN 978-3-486-78668-2, S. 107 (abgerufen über De Gruyter Online).
  14. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 328.
  15. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 330.
  16. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 341.
  17. G. Judge, R. Carter Hill: Introduction to the Theory and Practice of Econometrics. 1998, S. 342.
  18. argmin() bezeichnet analog zu argmax()(Argument des Maximums) das Argument des Minimums
  19. Bei der gewöhnlichen Methode der kleinsten Quadrate wird im Gegensatz zur verallgemeinerten Methode der kleinsten Quadrate eine ungewichtete Fehlerquadratsumme (𝐲𝐗β)(𝐲𝐗β) minimiert
  20. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 330.
  21. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 331.
  22. B. H. Baltagi: Econometrics. 4th ed. Springer, New York 2008.
  23. Vorlage:Cite book, chapter 3
  24. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 366.

Vorlage:Navigationsleiste Schätzmethoden, die auf der Methode der kleinsten Quadrate aufbauen