Hauptmenü öffnen
Die Summe der blauen Abweichungsquadrate ist die totale Quadratsumme und die Summe der roten Abweichungsquadrate ist die Residuenquadratsumme.

Die Residuenquadratsumme, Quadratsumme der Residuen (Summe der (Abweichungs-)Quadrate der Restabweichungen (oder: „Residuen“), kurz: SAQRest bzw. SQR, bzw. englisch sum of squared residuals, kurz SSR oder residual sum of squares, kurz RSS) bezeichnet in der Statistik die (Abweichungs-)Quadratsumme von beobachteten Werten und den durch ein Regressionsmodell vorhergesagten Werten (auch Regresswerte genannt).[1] Eine solche Abweichung wird Residuum genannt. Sie ist ein Gütekriterium für ein lineares Modell und beschreibt die Ungenauigkeit des Modells. Die Residuenquadratsumme wird im Kontext der Quadratsummenzerlegung auch als die nicht erklärte Abweichungsquadratsumme bezeichnet. Neben der Residuenquadratsumme spielt in der Statistik auch die totale Quadratsumme und die erklärte Quadratsumme eine große Rolle. Gelegentlich wird die Residuenquadratsumme auch als Fehlerquadratsumme bezeichnet. Diese Bezeichnung ist falsch, da Störgröße und Residuum unterschiedliche Größen darstellen. Über die genaue Bezeichnung und ihre Abkürzungen gibt es international keine Einigkeit.[2]

Um einen globalen F-Test durchzuführen, sind oft mittlere Abweichungsquadrate von Interesse. Dividiert man die Residuenquadratsumme durch die residualen Freiheitsgrade, erhält man das mittlere Residuenquadrat. Die Teststatistik eines globalen F-Tests ist dann gegeben durch den Quotienten aus dem „mittleren Quadrat der erklärten Abweichungen“ und dem „mittleren Residuenquadrat“.

Inhaltsverzeichnis

DefinitionBearbeiten

Die Residuenquadratsumme ist definiert durch die Summe der Quadrate der Restabweichungen bzw. Residuen:

 .

Einfache lineare RegressionBearbeiten

In der einfachen linearen Regression (Modell mit nur einer erklärenden Variablen) lässt sich die Residuenquadratsumme auch wie folgt ausdrücken:

 

Hierbei stellen die   die Residuen dar und   ist die Schätzung des Absolutglieds und   die Schätzung des Steigungsparameters. Die Methode der kleinsten Quadrate versucht hier die Residuenquadratsumme zu minimieren (vgl. Minimierung der Summe der Fehlerquadrate). Ein spezielleres Konzept ist die PRESS-Statistik, auch prädiktive Residuenquadratsumme (englisch predictive residual sum of squares) genannt.

Es lässt sich zeigen, dass in der einfachen linearen Regression die Residuenquadratsumme wie folgt angegeben werden kann (für einen Beweis, siehe Erklärte Quadratsumme#Einfache lineare Regression)

 ,

wobei   die totale Quadratsumme und   den Bravais-Pearson-Korrelationskoeffizienten darstellt.[3]

Multiple lineare RegressionBearbeiten

Die gewöhnlichen Residuen, die durch die Kleinste-Quadrate-Schätzung gewonnen werden, sind in der multiplen linearen Regression gegeben durch[4]

 ,

wobei   der Kleinste-Quadrate-Schätzvektor ist. Die Residuenquadratsumme ergibt sich also aus dem Produkt zwischen dem transponierten Residualvektor und dem nicht-transponierten Residualvektor

 .

Alternativ lässt sie sich auch schreiben als:

 

Die Residuenquadratsumme lässt sich mittels der residuenerzeugenden Matrix auch darstellen als:

 .

Dies zeigt, dass die Residuenquadratsumme eine quadratische Form der theoretischen Störgrößen ist. Eine alternative Darstellung als eine quadratische Form der y-Werte ist

 .

Eigenschaften der ResiduenquadratsummeBearbeiten

Verteilung der ResiduenquadratsummeBearbeiten

Wenn die Beobachtungen mehrdimensional normalverteilt sind, dann gilt für den Quotienten aus der Residuenquadratsumme   und der Störgrößenvarianz  , dass er einer Chi-Quadrat-Verteilung mit   (mit  ) Freiheitsgraden folgt:[5]

 ,

wobei   die erwartungstreue Schätzung der Varianz der Störgrößen darstellt.

Erwartungswert der ResiduenquadratsummeBearbeiten

Man kann zeigen, dass der Erwartungswert der Residuenquadratsumme   ergibt

 ,

wobei   die Anzahl der Freiheitsgrade der Residuenquadratsumme und   die Störgrößenvarianz ist. Daraus lässt sich schließen, dass der erwartungstreue Schätzer für die unbekannte skalare Störgrößenvarianz gegeben sein muss durch  .[6]

Mittleres ResiduenquadratBearbeiten

Wenn man die Residuenquadratsumme durch die Anzahl der Freiheitsgrade dividiert, dann erhält man als mittleres Abweichungsquadrat das „mittlere Residuenquadrat“ (Mittleres Quadrat der Residuen, kurz: MQR)[7]

 .

Die Quadratwurzel des mittleren Residuenquadrats ist der Standardfehler der Regression. In der linearen Einfachregression, die den Zusammenhang zwischen der Einfluss- und der Zielgröße mithilfe von zwei Regressionsparametern herstellt ist das mittlere Residuenquadrat gegeben durch

 .

Gewichtete ResiduenquadratsummeBearbeiten

In der verallgemeinerten Kleinste-Quadrate-Schätzung und anderen Anwendungen wird oft eine gewichtete Version der Residuenquadratsumme verwendet

 ,

wobei   die Gewichtsmatrix darstellt.

Penalisierte ResiduenquadratsummeBearbeiten

Im Kontext von penalisierten Splines (kurz: P-Splines) wird eine sogenannte penalisierte Residuenquadratsumme verwendet, die approximativ der gewöhnlichen Residuenquadratsumme entspricht.[8]

EinzelnachweiseBearbeiten

  1. Field, Andy: Discovering statistics using SPSS. Sage publications, 2009. S. 202.
  2. Jeffrey Marc Wooldridge: Introductory econometrics: A modern approach. 4. Auflage. Nelson Education, 2015, S. 39.
  3. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 314.
  4. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 77
  5. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 123.
  6. George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl, T. C. Lee. Introduction to the Theory and Practice of Econometrics. 2. Auflage. John Wiley & Sons, New York/ Chichester/ Brisbane/ Toronto/ Singapore 1988, ISBN 0-471-62414-4, S. 207.
  7. Werner Timischl: Angewandte Statistik. Eine Einführung für Biologen und Mediziner. 2013, 3. Auflage, S. 335.
  8. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang: Regression: Models, Methods and Applications., S. 432