Informationskriterium

In der Statistik ist ein Informationskriterium ein Kriterium zur Modellauswahl. Man folgt dabei der Idee von Ockhams Rasiermesser, dass ein Modell nicht unnötig komplex sein soll und balanciert die Anpassungsgüte des geschätzten Modells an die vorliegenden empirischen Daten (Stichprobe) und dessen Komplexität, gemessen an der Anzahl der Parameter, aus. Die Anzahl der Parameter wird dabei „strafend“ berücksichtigt, da sonst komplexe Modelle mit vielen Parametern bevorzugt würden. In diesem Sinne ist das korrigierte Bestimmtheitsmaß, das auf Henri Theil (1970) zurückgeht, ein Vorläufer der heute bekannten Informationskriterien.

Allen heute verwendeten Informationskriterien ist gleich, dass sie in zwei verschiedenen Formulierungen vorliegen. Entweder ist das Maß für die Anpassungsgüte als die „maximale Plausibilität“ oder als die „minimale Varianz“ der Residuen formuliert. Hieraus ergeben sich unterschiedliche Interpretationsmöglichkeiten. Beim Ersteren ist das Modell „am besten“, bei dem das jeweilige Informationskriterium den höchsten Wert hat (die „strafende“ Anzahl der Parameter muss dabei abgezogen werden). Beim Letzteren ist das Modell mit dem niedrigsten Wert des Informationskriteriums am besten (die Anzahl der Parameter muss „strafend“ addiert werden).

Akaike-Informationskriterium

Das historisch älteste Kriterium wurde im Jahr 1973 von Hirotsugu Akaike (1927–2009) als an information criterion vorgeschlagen und ist heute als Akaike-Informationskriterium^[1], Informationskriterium nach Akaike, oder Akaike'sches Informationskriterium (englisch Akaike information criterion, kurz: AIC) bekannt. Das Akaike-Informationskriterium ist eines der am häufigsten verwendeten Kriterien für die Modellauswahl im Rahmen der Likelihood-basierten Inferenz.

In der Grundgesamtheit liegt eine Verteilung einer Variablen mit unbekannter Dichtefunktion $p$ vor. Bei der Maximum-Likelihood-Schätzung (ML-Schätzung) geht man von einer bekannten Verteilung mit einem unbekannten Parameter $\theta$ aus; man nimmt also an, dass sich die Dichtefunktion als $q(\theta )$ schreiben lässt. Die Kullback-Leibler-Divergenz wird als Entfernungsmaß zwischen $p$ und $q({\hat {\theta }})$ genutzt. Dabei ist ${\hat {\theta }}$ der geschätzte Parameter aus der Maximum-Likelihood-Schätzung. Je besser das ML-Modell ist, desto kleiner ist die Kullback-Leibler-Divergenz $D(P\|Q)$ .

Für den Fall eines regulären und linearen Modells konnte Akaike zeigen, dass die negative log-Likelihood-Funktion (auch logarithmische Plausibilitätsfunktion genannt) $-\ell ({\hat {\theta }})$ ein verzerrter Schätzer für die Kullback-Leibler-Divergenz $D(P\|Q)$ ist und dass die Verzerrung asymptotisch (Stichprobenumfang strebt gegen unendlich) gegen die Zahl der zu schätzenden Parameter $p$ konvergiert. Für ein Maximum-Likelihood-Modell mit einem p-dimensionalen Parametervektor ${\hat {\boldsymbol {\theta }}}_{ML}=({\hat {\theta }}_{1},{\hat {\theta }}_{2},\dotsc ,{\hat {\theta }}_{p})^{\top }$ , ist das Akaike-Informationskriterium definiert als^[2]

AIC=-2\ell ({\hat {\boldsymbol {\theta }}}_{ML})+2p

,

wobei $\ell$ die log-Likelihood-Funktion darstellt. Das Kriterium ist negativ orientiert, d. h. bei einer Auswahl von möglichen Kandidaten für Modelle (Modellauswahl) für die Daten ist das bevorzugte Modell dasjenige mit dem minimalen AIC-Wert. Das AIC belohnt die Anpassungsgüte (beurteilt durch die Likelihood-Funktion), aber es enthält auch einen Strafterm (auch Pönalisierungsterm oder Penalisierungsterm genannt) $2p$ , der hierbei zu hohe Modellkomplexität bestraft. Er ist eine zunehmende Funktion in Abhängigkeit der Anzahl der geschätzten Parameter $p$ . Der Strafterm verhindert Überanpassung, denn die Erhöhung der Anzahl der Parameter im Modell verbessert fast immer die Anpassungsgüte. Anstelle des AIC nach obiger Definition wird auch $AIC/n$ verwendet, wobei $n$ die Stichprobengröße ist.^[3]

Allgemeine Definition

Angenommen, es liegen $n$ unabhängige Beobachtungen mit Erwartungswert $\operatorname {E} (y_{i})=\mu _{i}$ und Varianz $\operatorname {Var} (y_{i})=\sigma ^{2}$ vor. Die Variablen $x_{0}=1,x_{1},x_{2},\ldots ,x_{k}$ sind verfügbar als potentielle Regressoren. Sei das spezifizierte Modell definiert durch die Teilmenge $M\subset \{0,1,2,\ldots ,k\}$ von miteinbezogenen erklärenden Variablen mit der dazugehörigen Versuchsplanmatrix $\mathbf {X} _{M}$ . Für den Kleinste-Quadrate-Schätzer erhält man ${\hat {\boldsymbol {\beta }}}_{M}=(\mathbf {X} _{M}^{\top }\mathbf {X} _{M})^{-1}\mathbf {X} _{M}^{\top }\mathbf {y}$ .^[4]

Im Allgemeinen ist das Akaike-Informationskriterium definiert durch

AIC=-2\ell ({\hat {\boldsymbol {\beta }}}_{M},{\hat {\sigma }}^{2};\mathbf {y} ,\mathbf {X} _{M})+2(\mid M\mid +1)

,

wobei $\ell ({\hat {\boldsymbol {\beta }}}_{M},{\hat {\sigma }}^{2})$ der Maximalwert der log-Likelihood-Funktion ist, d. h., die log-Likelihood-Funktion wenn die ML-Schätzer ${\hat {\boldsymbol {\beta }}}_{M}$ und ${\hat {\sigma }}^{2}$ in die log-Likelihood-Funktion eingesetzt werden. Kleinere AIC-Werte gehen mit einer besseren Modellanpassung einher. Die Anzahl der Parameter ist hier $\mid M\mid +1$ , da die Varianz der Störgrößen ebenfalls als ein Parameter gezählt wird. In einem linearen Modell mit normalverteilten Störgrößen (Klassisches lineares Modell der Normalregression) erhält man für die negative log-Likelihood-Funktion (für die Herleitung der log-Likelihood-Funktion, siehe Maximum-Likelihood-Schätzung)

{\begin{aligned}-2\ell ({\hat {\boldsymbol {\beta }}}_{M},{\hat {\sigma }}^{2};\mathbf {y} ,\mathbf {X} _{M})&=-2\ln(L({\hat {\boldsymbol {\beta }}}_{M},{\hat {\sigma }}^{2};\mathbf {y} ,\mathbf {X} _{M}))=n\cdot \ln(2\pi )+n\cdot \ln({\hat {\sigma }}^{2})+{\frac {(\mathbf {y} -\mathbf {X} _{M}{\hat {\boldsymbol {\beta }}}_{M})^{\top }(\mathbf {y} -\mathbf {X} _{M}{\hat {\boldsymbol {\beta }}}_{M})}{{\hat {\sigma }}^{2}}}\\&\propto n\cdot \ln({\hat {\sigma }}^{2})+{\frac {(\mathbf {y} -\mathbf {X} _{M}{\hat {\boldsymbol {\beta }}}_{M})^{\top }(\mathbf {y} -\mathbf {X} _{M}{\hat {\boldsymbol {\beta }}}_{M})}{{\hat {\sigma }}^{2}}}\\&=n\cdot \ln({\hat {\sigma }}^{2})+{\frac {n{\hat {\sigma }}^{2}}{{\hat {\sigma }}^{2}}}\\&=n\cdot \ln({\hat {\sigma }}^{2})+n\\&\propto n\cdot \ln({\hat {\sigma }}^{2})\end{aligned}}

und damit

AIC=n\ln({\hat {\sigma }}^{2})+2(\mid M\mid +1)

.

Hierbei ist $n$ der Stichprobenumfang und ${\hat {\sigma }}^{2}$ die Varianz der Störgrößen. Die Varianz der Störgrößen ${\hat {\sigma }}^{2}$ wird mittels der Residuenquadratsumme aus dem Regressionsmodell geschätzt (siehe Erwartungstreue Schätzung der Varianz der Störgrößen). Allerdings ist zu beachten, dass ${\hat {\sigma }}^{2}$ die verzerrte (und nicht wie gewöhnlich die erwartungstreue) Variante der Schätzung der Varianz der Störgrößen ${\hat {\sigma }}^{2}={\tfrac {1}{n}}{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}$ ist.^[5]

Bayessches Informationskriterium

Der Nachteil des Akaike-Informationskriteriums ist, dass der Strafterm von der Stichprobengröße unabhängig ist. Bei großen Stichproben sind Verbesserungen der log-Likelihood bzw. der Residualvarianz „leichter“ möglich, weshalb das Kriterium bei großen Stichproben tendenziell Modelle mit verhältnismäßig vielen Parametern vorteilhaft erscheinen lässt. Deshalb empfiehlt sich die Verwendung des durch Gideon E. Schwarz 1978 vorgeschlagenen bayesschen Informationskriteriums^[6], auch Bayes-Informationskriterium, Bayes’sches Informationskriterium, bayesianisches Informationskriterium, oder Schwarz-Bayes-Informationskriterium (kurz: SBC) genannt (englisch Bayesian Information Criterion, kurz: BIC). Für ein Modell mit einem Parametervektor ${\boldsymbol {\theta }}$ , log-Likelihood-Funktion $\ell ({\boldsymbol {\theta }})$ und dem Maximum-Likelihood-Schätzer ${\hat {\boldsymbol {\theta }}}_{ML}$ ist das BIC definiert als^[7]^[8]

BIC=-2\ell ({\hat {\boldsymbol {\theta }}}_{ML})+p\ln(n)

.

bzw.

BIC=n\ln({\hat {\sigma }}^{2})+p\ln(n)

Bei diesem Kriterium wächst der Faktor des Strafterms logarithmisch mit der Anzahl der Beobachtungen $n$ . Bereits ab acht Beobachtungen ( $\ln 8=2{,}07944>2$ ) bestraft das BIC zusätzliche Parameter schärfer als das AIC. Formal ist das BIC identisch zum AIC, bloß dass der Faktor 2 durch $\ln(n)$ ersetzt wird.

Es hat die gleiche Ausrichtung wie AIC, sodass Modelle mit kleinerem BIC bevorzugt werden.^[9]

Letzteres Modell wird vor allem in der Soziologie häufig verwendet. Kuha (2004) weist auf die unterschiedlichen Ziele der beiden Kenngrößen hin: Während das BIC versucht dasjenige Modell auszuwählen, das A-posteriori die größte Plausibilität besitzt das wahre Modell zu sein, geht das AIC davon aus, dass es kein wahres Modell gibt. Die Hälfte des negativen BIC wird auch als Schwarz-Kriterium bezeichnet.

Weitere Informationskriterien

Daneben existieren weitere, seltener verwendete Informationskriterien, wie:

das Hannan-Quinn-Informationskriterium (englisch Hannan-Quinn Information Criterion kurz: HQIC), benannt nach Edward James Hannan und Barry G. Quinn (1979)
das Devianz-Informationskriterium (englisch Deviance Information Criterion kurz: DIC), nach Spiegelhalter, Best, Carlin und van der Linde (2002)
Erweitertes Informationskriterium (englisch Extended Information Criterion, kurz: EIC) nach Ishiguro, Sakamoto, and Kitagawa (1997)
Fokussiertes Informationskriterium (englisch Focused Information Criterion, kurz: FIC) nach Wei (1992), Generalized Information Criterion, kurz: GIC nach Nishii (1984)
Netzwerkinformationskriterium^[10] (englisch Network Information Criterion, kurz: NIC) nach Murata, Yoshizawa und Amari (1991)
Takeuchi-Informationskriterium (englisch Takeuchi's Information Criterion, kurz: TIC) nach Takeuchi (1976)

Ein auf Informationskriterien basierender statistischer Test ist der Vuong-Test.

Literatur

Hirotsugu Akaike: Information theory and an extension of the maximum likelihood principle. In: B. N. Petrov u. a. (Hrsg.): Proceedings of the Second International Symposium on Information Theory Budapest: Akademiai Kiado 1973. S. 267–281.
Kenneth P. Burnham, David R. Anderson: Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach. Springer-Verlag, New York 2002, ISBN 0-387-95364-7.
Kenneth P. Burnham/David R. Anderson (2004): Multimodel Inference: Understanding AIC and BIC in Model Selection. In: Sociological Methods and Research. Band 33, 2004, doi:10.1177/0049124104268644, S. 261–304.
Jouni Kuha (2004): AIC and BIC: Comparisons of Assumptions and Performance, in: Sociological Methods and Research. Band 33, 2004, doi:10.1177/0049124103262065, S. 188–229.
Gideon Schwarz: Estimating the Dimension of a Model. In: Annals of Statistics. 2, Nr. 6, 1978, doi:10.1214/aos/1176344136, JSTOR:2958889, S. 461–464.
David L. Weakliem (2004): Introduction to the Special Issue on Model Selection. In: Sociological Methods and Research, Band 33, 2004, doi:10.1177/0049124104268642, S. 167–187.

Einzelnachweise

↑ Akaike's information criterion. Glossary of statistical terms. In: International Statistical Institute. 1. Juni 2011, abgerufen am 4. Juli 2020 (englisch).
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 664.
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 664.
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 144
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 148
↑ Bayes information criterion. Glossary of statistical terms. In: International Statistical Institute. 1. Juni 2011, abgerufen am 4. Juli 2020 (englisch).
↑ Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 230.
↑ Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 677.
↑ Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 230.
↑ Bastian Popp: Markenerfolg durch Brand Communities: Eine Analyse der Wirkung psychologischer Variablen auf ökonomische Erfolgsindikatoren.

Weblinks

Bernard Desgraupes: Clustering Indices. (PDF) Universität Paris-Nanterre, März 2013; abgerufen am 26. Juni 2016 (englisch).

[1] Akaike's information criterion. Glossary of statistical terms. In: International Statistical Institute. 1. Juni 2011, abgerufen am 4. Juli 2020 (englisch).

[2] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 664.

[3] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 664.

[4] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 144

[5] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 148

[6] Bayes information criterion. Glossary of statistical terms. In: International Statistical Institute. 1. Juni 2011, abgerufen am 4. Juli 2020 (englisch).

[7] Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 230.

[8] Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, Brian Marx: Regression: models, methods and applications. Springer Science & Business Media, 2013, ISBN 978-3-642-34332-2, S. 677.

[9] Leonhard Held und Daniel Sabanés Bové: Applied Statistical Inference: Likelihood and Bayes. Springer Heidelberg New York Dordrecht London (2014). ISBN 978-3-642-37886-7, S. 230.

[10] Bastian Popp: Markenerfolg durch Brand Communities: Eine Analyse der Wirkung psychologischer Variablen auf ökonomische Erfolgsindikatoren.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]