Diskussion:Kullback-Leibler-Divergenz

Ereignisraum versus Ereignishorizont

Sollte es nicht Ereignisraums an Stelle von Ereignishorizonts heissen --194.76.29.2 16:20, 10. Dez 2004 (CET)vonallmm Sehe ich auch so: Ereignisraum ist in der WS-Theorie definiert, Ereignishorizont in der theoretischen Physik.

Dieser Abschnitt kann archiviert werden. --Sigma^2 (Diskussion) 15:23, 17. Okt. 2022 (CEST) (in aktueller Fassung nihct enthalten)

$log$ vs. $log_{2}$ vs. $ln$

Letzter Kommentar: vor 11 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Es ist definitv log2 und nicht log!! log Bedeutet im Sprachgebrauch log10 das ist falsch! Nen Wunder warum das auf allen Seiten so steht, wahrscheinlich einfahc copypasta. -- sssub (18:54, 3. Aug. 2009 (CEST), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)

Das würde ich nicht sagen. Der Sprachgebrauch variert da erheblich. Meistens wird in der Informatik für log, der Logarithmus zur Basis 2 angenommen und in einigen Mathematikbüchern verweist man mit log sogar auf den natürlichen Logarithmus, der aber häufiger mit ln bezeichnet wird.

Woher habt ihr, dass es log_2 ist?! Klar könnte man log als log_10 missdeuten, aber.. in meiner Quelle steht 'ln', das ist eindeutig, und ich denke, die alten Artikel meinten mit log auch diesen. (Übrigens, in der encyclopediaofmath-Quelle ist es auch explizit ausgesprochen.. Werde es (mit Quellenangabe) demnächst ändern. --Kraymer (Diskussion) 19:04, 9. Mai 2012 (CEST)Beantworten

Ich muss leider allen obigen Meinungen widerprechen. Der Verzicht auf eine konkrete Basis des Logarithmus ist in der Informatik und angrenzenden Wissenschaften übliche Praxis, wenn die Basis unerheblich ist (s. a. unten) oder wenn sie - in Abhängigkeit von der Aufgabenstellung - frei gewählt werden kann. In diesem Fall kommt es darauf an in welcher Informationseinheit die KL-Divergenz berechnet werden soll: Bit bzw. Shannon - Basis 2; Nit - Basis

e

; Ban - Basis 10; ...

In der Praxis ist die Basis 2 sicherlich am häufigsten anzutreffen, sie aber in einem Artikel zur Kullback-Leibler-Divergenz als Teil der Definition aufzunehmen ist schlicht falsch.

-- 82.119.29.173 15:01, 14. Jan. 2013 (CET)Beantworten

Logarithmus-Basisumrechnung

-> Logarithmus-Basisumrechnung ermöglicht den Verzicht der Angabe der Basis: log_a(r) = log_b(r) / log_b(a)

Definition

Letzter Kommentar: vor 8 Monaten5 Kommentare2 Personen sind an der Diskussion beteiligt

Mir stellen sich folgende Fragen:

Ist die KL-Distanz für zwei beliebige Wahrscheinlichkeitsverteilungen definiert oder nur in den Fällen, in den beiden Verteilungen entweder diskret oder absolut stetig (d. h. mit Dichtefunktion) sind?
Ist die KL-Distanz als reelle Zahl oder als erweitert reelle Zahl definiert?
Ist die Existenz der Summe bzw. des Integrals als reelle Zahl oder als erweitert reelle Zahl garantiert?
Welche Voraussetzungen werden gemacht, damit es nicht zur Definition durch Null kommt und damit nicht $log(0)$ berechnet werden muss?--Sigma^2 (Diskussion) 15:45, 17. Okt. 2022 (CEST)Beantworten

Allgemeiner Fall: Lässt sich diese extrem symbolische Schreibweise

\int _{E}\log \left({\frac {d\mu }{d\nu }}\right)d\mu =\int _{E}{\frac {d\mu }{d\nu }}\log \left({\frac {d\mu }{d\nu }}\right)d\nu

noch etwas irdischer darstellen?--Sigma^2 (Diskussion) 17:39, 13. Okt. 2023 (CEST)Beantworten

Liegt es an

{\frac {d\mu }{d\nu }}

? Das ist nur die übliche Notation für die Radon-Nikodým-Ableitung. Ich ergänze es noch.--Tensorproduct 11:21, 14. Okt. 2023 (CEST)Beantworten

Die Ergänzung ist gut. Für mich ist das schon verständlich. Aber wir müssen schon im Auge behalten, dass wahrscheinlich 99 % Prozent aller Anwender von Statistik und Wahrscheinlichkeitstheorie (in Soziologie, Psychologie, Medizin, Wirtschaftswissenschaften, Politologie, Medienwissenschaften, Ingenieurwissenschaften, Pädagogik, Marktforschung, in den statistischen Ämtern usw.) keine Ausbildung in Maßtheorie haben. Hilfreich für vielleicht ein Fünftel dieser 99 %, das sind diejenigen mit einer halbwegs vernünftigen quantitativen Ausbildung, wäre ein allgemeine Darstellung für Wahrscheinlichkeitsverteilungen auf

(\mathbb {R} ,\mathbb {B} )

, die durch Verteilungsfunktionen gegeben sind. Das abstrakteste, was dann noch vermittelbar ist, sind Lebesgue-Stieltjes-Integrale bezgl. der Verteilungsfunktionen. Ich frage mich, ob ein nicht ganz so allgemeiner Fall nur mit Verteilungs- und Dichtefunktionen formulierbar wäre? --Sigma^2 (Diskussion) 23:42, 14. Okt. 2023 (CEST)Beantworten

Die von dir erwähnten Fachpersonen werden aber ganz bestimmt nicht die allgemeine Definition brauchen. Diese Definition werden höchstwahrscheinlich nur Mathematiker benützen. Da genügt ja die Definition für den diskreten Fall für die erste Zielgruppe.--Tensorproduct 00:28, 15. Okt. 2023 (CEST)Beantworten

Transinformation = Spezialfall der Kullback-Leibler-Distanz

Letzter Kommentar: vor 8 Monaten1 Kommentar1 Person ist an der Diskussion beteiligt

Die Transinformation scheint mir nur ein Spezialfall der Kullback-Leibler-Distanz zu sein. Siehe dort Zeile: Definition über die Kullback-Leibler-Divergenz: "--Tensorproduct 13:20, 27. Sep. 2023 (CEST)Beantworten

Einleitung

Letzter Kommentar: vor 8 Monaten7 Kommentare2 Personen sind an der Diskussion beteiligt

Im zweiten Satz der Einleitung wird der Eindruck erweckt man könne die Kullback-Leibler-Divergenz für den Unterschied zwischen einer empirischen Verteilung, die immer diskret ist, und der Verteilung eines Modells berechnen. Wie geht dass, wenn die empirische Verteilung diskret ist und die theoretische Verteilung stetig? --Sigma^2 (Diskussion) 17:10, 13. Okt. 2023 (CEST)Beantworten

Dann nimmt man von der theoretischen Verteilung nicht alle Punkte, sondern nur diejenigen, welche man in der Stichprobe hat.--Tensorproduct 11:54, 14. Okt. 2023 (CEST)Beantworten

Ich verstehe es noch nicht, das scheint noch nicht mein Punkt zu sein. Ich mache es konkreter. Die theoretische Verteilung

P

sei die Standardnormalverteilung. Es liegen

n

Beobachtungen

x_{1},\dots ,x_{n}

vor und damit die empirische Verteilung

P_{n}(B)={\frac {1}{n}}\sum _{i=1}^{n}\mathbf {1} _{B}(x_{i}),\quad B\in \mathbb {B} \;.

Dann ist doch

P_{n}

nicht

P

-stetig, da aus

P({x})=0

nicht

P_{n}({x})=0

folgt. Wie ist dann

D(P_{n}\|P)

definiert? (nicht signierter Beitrag von Sigma^2 (Diskussion | Beiträge) 23:44, 14. Okt. 2023 (CEST))Beantworten

Sei

X=\{x_{1},\dots ,x_{n}\}

und

p(x)={\frac {1}{n}}1_{X}(x)

und

f(x)={\frac {1}{\sqrt {2\pi }}}e^{-{\frac {x^{2}}{2}}}

, dann ist

D(P_{n}\|P)=\sum _{x\in X}p(x)\log \left({p(x) \over f(x)}\right)=p(x_{1})\log \left({p(x_{1}) \over f(x_{1})}\right)+p(x_{2})\log \left({p(x_{2}) \over f(x_{2})}\right)\dots

.--Tensorproduct 00:26, 15. Okt. 2023 (CEST)Beantworten

Ich hatte verstanden, dass Du Dir das so vorstellst. Nur ist diese Idee nicht mit den drei angegebenen Definitionen verträglich. Weder sind beide Verteilungen stetig, noch beide diskret, noch ist

P_{n}

P

-stetig, wie in der allgemeinen Definition verlangt.

Ich habe auch Bedenken gegen diese Erweiterung, da eine Lebesgue-Dichte an abzählbar vielen Stellen beliebig abgeändert werden kann, so dass

\sum _{x\in X}p(x)\log \left({p(x) \over f(x)}\right)

grundsätzlich unbestimmt ist bzw. von der gewählten Version der Dichte abhängt.

Gibt es eine Quelle, wo so etwas vorgeschlagen wird? --Sigma^2 (Diskussion) 08:56, 15. Okt. 2023 (CEST)Beantworten

Nun, was soll man sonst machen? Meiner Meinung nach gibt es nur zwei Optionen: entweder man erweitert

x_{1},\dots ,x_{n}

bis man eine stetige Menge hat oder man verwendet die oben beschriebene Variante. Etwas anderes sehe ich nicht.

Edit: Ich denke, in der Praxis würde man sowieso nicht direkt mit der empirischen Verteilung arbeiten.--Tensorproduct 11:21, 15. Okt. 2023 (CEST)Beantworten

Es geht jetzt konkret um diesen Satz der Einleitung Typischerweise repräsentiert dabei eine der Verteilungen empirische Beobachtungen oder eine präzise Wahrscheinlichkeitsverteilung, während die andere ein Modell oder eine Approximation darstellt. Er ist sehr missverständlich und nicht durch die Ausführungen des Artikels gedeckt.

Was man machen kann, ist z. B. eine geschätzte Normalverteilung ${\hat {P}}={\mathcal {N}}(\mu _{n},\sigma _{n}^{2})$ mit Dichtefunktion ${\hat {p}}$ , wobei $\mu _{n}$ und $\sigma _{n}^{2}$ der Erwartungswert und die Varianz der empirischen Verteilung $P_{n}$ sind, mit einer theoretischen Normalverteilung $P={\mathcal {N}}(\mu ,\sigma ^{2})$ mit Dichtefunktion $p$ zu vergleichen, das ist sinnvoll. Dann ist das bzgl. der theoretischen Verteilung erwartete Log-Likelihood-Verhältnis