Prädiktionsmatrix

In der Statistik ist die Prädiktionsmatrix (englisch prediction matrix) eine symmetrische und idempotente Matrix und damit eine Projektionsmatrix. Die Prädiktionsmatrix wird gelegentlich Hut-Matrix oder Dach-Matrix genannt, da sie $y$ auf ${\hat {y}}$ abbildet. Dementsprechend wird sie entweder mit $\mathbf {P}$ oder $\mathbf {H}$ notiert. Der Begriff „Prädiktionsmatrix“ bzw. „Vorhersagematrix“ wurde von Hoaglin & Welsh (1978)^[1] sowie Chatterjee & Hadi (1986)^[2] geprägt und rührt daher, dass wenn man die Matrix auf die $y$ -Werte anwendet sie die vorhergesagten Werte ( ${\hat {y}}$ -Werte) generiert.^[2] Eine weitere in der Statistik wichtige Matrix ist die Residualmatrix, die durch die Prädiktionsmatrix definiert wird und ebenfalls eine Projektionsmatrix ist.

Definition Bearbeiten

Gegeben ein typisches multiples lineares Regressionsmodell $\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ , mit ${\boldsymbol {\beta }}$ dem $p\times 1$ Vektor der unbekannten Regressionsparameter, der $n\times p$ Versuchsplanmatrix $\mathbf {X}$ , dem $n\times 1$ Vektor der abhängigen Variablen $\mathbf {y}$ und dem $n\times 1$ Vektor der Störgrößen ${\boldsymbol {\varepsilon }}$ . Dann ist die Prädiktionsmatrix definiert durch

\mathbf {P} \equiv \mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\quad

mit

\quad \mathbf {P} \in \mathbb {R} ^{n\times n}

.

Die Matrix $\mathbf {X} ^{+}=\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }$ wird auch Moore-Penrose-Inverse von $\mathbf {X}$ genannt.

Die mithilfe der Methode der kleinsten Quadrate geschätzte Regressions(hyper)ebene ist dann gegeben durch die Stichproben-Regressionsfunktion ${\hat {\mathbf {y} }}={\widehat {\operatorname {E} (\mathbf {y} )}}=\mathbf {X} {\hat {\boldsymbol {\beta }}}$ , wobei ${\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y}$ der Kleinste-Quadrate-Schätzvektor ist. Die Prädiktionsmatrix $\mathbf {P}$ ist die Matrix der Orthogonalprojektion auf den Spaltenraum von $\mathbf {X}$ und hat maximal den Rang $p$ ( $p=k+1$ ist die Anzahl der Parameter des Regressionsmodells). Falls $\mathbf {X}$ eine $(n\times p)$ Matrix mit $\operatorname {Rang} (\mathbf {X} )=p$ ist, dann ist $\operatorname {Rang} (\mathbf {P} )=p$ . Da $\mathbf {P}$ eine Projektionsmatrix ist, gilt $\operatorname {Rang} (\mathbf {P} )=\operatorname {Spur} (\mathbf {P} )=p$ . Die Idempotenz- und die Symmetrieeigenschaft ( $\mathbf {P} \cdot \mathbf {P} =\mathbf {P}$ und $\mathbf {P} ^{\top }=\mathbf {P}$ ) implizieren, dass $\mathbf {P}$ ein orthogonaler Projektor auf den Spaltenraum $S(\mathbf {X} )=S(\mathbf {P} )$ ist.^[3] Die Projektionsrichtung ergibt sich aus der Matrix $(\mathbf {I} -\mathbf {P} )$ , deren Spalten senkrecht auf $S(\mathbf {X} )$ stehen. Die Matrix $\mathbf {P}$ wird Prädiktionsmatrix genannt, da sich die Vorhersagewerte ${\hat {\mathbf {y} }}$ durch die linksseitige Multiplikation des Vektors $\mathbf {y}$ mit dieser Matrix ergeben. Dies kann durch Einsetzen des KQ-Parameterschätzers wie folgt gezeigt werden:^[4]

{\hat {\mathbf {y} }}=\mathbf {X} {\hat {\boldsymbol {\beta }}}=\underbrace {\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }} _{=\mathbf {P} }\mathbf {y} =\mathbf {P} \mathbf {y}

.

Die Vorhersagewerte von $y$ (die ${\hat {y}}$ -Werte) können also als eine Funktion der beobachteten $y$ -Werte verstanden werden. Zahlreiche statistische Resultate lassen sich auch mit der Prädiktionsmatrix darstellen. Beispielsweise lässt sich der Residualvektor mittels der Prädiktionsmatrix darstellen als: ${\hat {\boldsymbol {\varepsilon }}}=\mathbf {y} -{\hat {\mathbf {y} }}=\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}=(\mathbf {I} -\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top })\mathbf {y} =(\mathbf {I} -\mathbf {P} )\mathbf {y}$ .^[5] Die (nichttriviale) Kovarianzmatrix des Residualvektors lautet $\operatorname {Cov} ({\hat {\boldsymbol {\varepsilon }}})=\sigma ^{2}(\mathbf {I} -\mathbf {P} )$ und spielt für die Analyse von Hebelwerten eine Rolle.

Eigenschaften Bearbeiten

Idempotenz Bearbeiten

Die Prädiktionsmatrix ist idempotent. Dies kann so interpretiert werden, dass „zweimaliges Anwenden der Regression zum gleichen Ergebnis führt“. Die Idempotenzeigenschaft der Prädiktionsmatrix kann wie folgt gezeigt werden:

\mathbf {P} ^{2}=\mathbf {P} \cdot \mathbf {P} =\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }=\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {I} \mathbf {X} ^{\top }=\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }=\mathbf {P}

,

wobei $\mathbf {I}$ die Einheitsmatrix ist.

Symmetrie Bearbeiten

Die Prädiktionsmatrix ist symmetrisch. Die Symmetrieeigenschaft der Prädiktionsmatrix kann wie folgt gezeigt werden

\mathbf {P} ^{\top }=\left(\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\right)^{\top }=\left(\left(\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\right)\left(\mathbf {X} ^{\top }\right)\right)^{\top }=\ \left(\mathbf {X} ^{\top }\right)^{\top }\left(\mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\right)^{\top }=\ \mathbf {X} \left(\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\right)^{\top }\mathbf {X} ^{\top }=\ \mathbf {X} \left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }=\mathbf {P}

Hebelwerte Bearbeiten

Die Diagonalelemente $p_{ii}$ der Prädiktionsmatrix $\mathbf {P}$ können als Hebelwerte interpretiert werden und spielen in der Regressionsdiagnostik eine große Rolle. Sie sind gegeben durch

p_{ii}=\mathbf {x} _{i}^{\top }\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {x} _{i}

.

Diese Hebelwerte werden bei der Berechnung des Cook-Abstands verwendet und können genutzt werden, um einflussreiche Beobachtungen zu identifizieren. Es gilt ${\frac {1}{n}}\leq p_{ii}\leq {\frac {1}{r}}$ , wobei $r$ die Anzahl der Zeilen in der Versuchsplanmatrix $\mathbf {X}$ darstellt, die unterschiedlich sind. Wenn alle Zeilen unterschiedlich sind, dann gilt ${\frac {1}{n}}\leq p_{ii}\leq 1$ .^[6]

Einzelnachweise Bearbeiten

↑ David C. Hoaglin & Roy E. Welsch: The Hat Matrix in Regression and ANOVA. In: The American Statistician, 32(1), 1978, S. 17–22, doi:10.1080/00031305.1978.10479237, JSTOR:2683469.
↑ ^a ^b Samprit Chatterjee & Ali S. Hadi: Influential observations, high leverage points, and outliers in linear regression. In: Statistical Science, 1(3), 1986, S. 379–393, doi:10.1214/ss/1177013622, JSTOR:2245477.
↑ Wilhelm Caspary: Fehlertolerante Auswertung von Messdaten, S. 124
↑ Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 27 (abgerufen über De Gruyter Online).
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 122.
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 108.

[1] David C. Hoaglin & Roy E. Welsch: The Hat Matrix in Regression and ANOVA. In: The American Statistician, 32(1), 1978, S. 17–22, doi:10.1080/00031305.1978.10479237, JSTOR:2683469.

[Chatterjee&Hadi-2] Samprit Chatterjee & Ali S. Hadi: Influential observations, high leverage points, and outliers in linear regression. In: Statistical Science, 1(3), 1986, S. 379–393, doi:10.1214/ss/1177013622, JSTOR:2245477.

[3] Wilhelm Caspary: Fehlertolerante Auswertung von Messdaten, S. 124

[4] Rainer Schlittgen: Regressionsanalysen mit R., ISBN 978-3-486-73967-1, S. 27 (abgerufen über De Gruyter Online).

[5] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 122.

[6] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 108.

[1]

[2]

[3]

[4]

[5]

[6]