Die Kreuzentropie ist in der Informationstheorie und der mathematischen Statistik ein Maß für die Qualität eines Modells für eine Wahrscheinlichkeitsverteilung. Eine Minimierung der Kreuzentropie in Bezug auf die Modellparameter kommt einer Maximierung der Log-Likelihood-Funktion gleich.

Definition Bearbeiten

Sei   eine Zufallsvariable mit Zielmenge  , die gemäß   verteilt ist. Es sei weiter   eine Verteilung auf demselben Ereignisraum.

Dann ist die Kreuzentropie definiert durch:

 

Hierbei bezeichne   die Entropie von   und   die Kullback-Leibler-Divergenz der beiden Verteilungen.

Äquivalente Formulierung Bearbeiten

Durch Einsetzen der beiden Definitionsgleichungen   und   ergibt sich nach Vereinfachung im diskreten Fall

 

und im stetigen Fall (mit Dichtefunktionen   und  )

 

Schätzung Bearbeiten

Zwar hat die Kreuzentropie eine vergleichbare Aussagekraft wie die reine Kullback-Leibler-Divergenz, erstere lässt sich jedoch auch ohne genaue Kenntnis von   schätzen. In der praktischen Anwendung ist daher   meist eine Approximation einer unbekannten Verteilung  .

Nach obiger Gleichung gilt:

 ,

wobei   den Erwartungswert gemäß der Verteilung   bezeichnet.

Sind nun   Realisierungen von  , d. h. eine unabhängig und identisch gemäß   verteilte Stichprobe. Dann ist der Stichprobenmittelwert ein erwartungstreuer Schätzer für die Kreuzentropie, welcher nach dem Gesetz der großen Zahlen konvergiert und seine Realisierung ist

 

Zusammenhang mit Log-Likelihood-Funktion Bearbeiten

Gegeben sei ein Modell mit Parametern   und (Ausgabe-)Wahrscheinlichkeitsdichte   welches die Wahrscheinlichkeitsdichte   annähern soll. Der wahre Wert der Parameter[1]   maximiert die erwartete Log-Likelihood-Funktion  

Diese Gleichungen können mithilfe von Stichproben genähert werden:  , wobei die Näherung wie unter Stichprobenmittelwert dargestellt folgt. Beachte, das Auftreten der Log-Likelihood-Funktion   in der Näherung, wobei die Skalierung   die Lage des Maximums nicht verändert.

Abgeleitete Größen Bearbeiten

Die Größe   beziehungsweise   wird auch als Perplexität bezeichnet. Sie wird vor allem in der Spracherkennung verwendet.

Siehe auch Bearbeiten

Literatur Bearbeiten

Weblinks Bearbeiten

Einzelnachweise Bearbeiten

  1. Denis Conniffe: Expected Maximum Log Likelihood Estimation. In: The Statistician. Band 36, Nr. 4, 1987, ISSN 0039-0526, S. 317, doi:10.2307/2348828.