Evidenztheorie

Die Evidenztheorie von Dempster und Shafer, englisch auch Theory of Belief functions, ist eine mathematische Theorie aus dem Gebiet der Wahrscheinlichkeitstheorie. Sie wird benutzt, um Informationen unterschiedlicher Quellen mit der sogenannten Dempster rule of combination zu einer Gesamtaussage zusammenzusetzen, wobei die Glaubwürdigkeit dieser Quellen in der Berechnung berücksichtigt wird.

Darstellung Bearbeiten

In den 1960er Jahren verfasste Arthur Pentland Dempster verschiedene Artikel zu einer Theorie für die Verrechnung von Evidenzen, z. B.^[1] Die Arbeit Dempsters wurde von Glenn Shafer weiterentwickelt und schließlich 1976 veröffentlicht.^[2] Die Theorie ist seither bekannt unter der Bezeichnung The Dempster-Shafer Theory of Evidence.

Eine Evidenz kann als eine Erweiterung einer Wahrscheinlichkeit betrachtet werden, wobei statt eines eindimensionalen ein zweidimensionales Maß verwendet wird: Es setzt sich zusammen aus dem Grad des Dafürhaltens bzw. dem Grad des Vertrauens darin, dass die Aussage einer Quelle zutrifft (englisch: degree of belief, mathematisches Symbol $bel$ ), und der Plausibilität des Ereignisses (mathematisches Symbol $pl$ ), d. h. aus einem Wahrscheinlichkeitsbereich mit einer unteren Grenze $bel$ und einer oberen Grenze $pl$ ^[1].

Die Evidenztheorie findet vor allem dort Einsatz, wo unsichere Aussagen verschiedener Quellen zu einer Gesamtaussage kombiniert werden müssen. Die Evidenztheorie ist nicht in Situationen einsetzbar, in denen der Grad des Vertrauens in eine Quelle nicht beziffert werden kann. Dennoch gibt es Anwendungen, wie z. B. in der Mustererkennung, bei denen sich mittels der Evidenztheorie Aussagen verschiedener unzuverlässiger Algorithmen kombinieren lassen, um so eine Aussage zu erhalten, deren Treffsicherheit besser ist als die jeder einzelnen Aussage.^[3]

Erläuterndes Beispiel Bearbeiten

Nehmen wir an, aufgrund des offiziellen Wetterberichts soll morgen schönes Wetter sein. Nehmen wir weiter an, dass dem Wetterbericht zu 80 % vertraut werden kann, d. h., dass in 80 % aller Fälle der Wetterbericht eine zutreffende Prognose stellt. Wir können nun also zu 80 % annehmen, dass morgen schönes Wetter sein wird. Was aber ist mit den anderen 20 %? Unter Verwendung der herkömmlichen Wahrscheinlichkeitslehre könnte man darauf schließen, dass mit einer Wahrscheinlichkeit von 20 % das Wetter morgen nicht schön sein wird. In diesem Punkt unterscheidet sich die Theorie von Dempster und Shafer von der Wahrscheinlichkeitslehre: In den restlichen 20 % wissen wir nicht, dass das Wetter nicht schön sein wird, sondern wir wissen nichts. Da in 80 % der Fälle die Prognose des Wetterberichts mit Sicherheit zutreffend ist, ist sie es in 20 % nicht mit Sicherheit. Das heißt aber, dass die Aussage des Wetterberichts in 20 % aller Fälle entweder falsch oder richtig sein kann. Die 20 % werden deshalb nicht dem Komplement der Hypothese, sondern der Menge aller Hypothesen zugesprochen.

Dieser Unterschied zwischen der Wahrscheinlichkeitslehre und der Theorie von Dempster und Shafer führt zu weiteren Konsequenzen. Der in der Wahrscheinlichkeitslehre für eine Hypothese $H$ gültige Satz

p(\neg H)=1-p(H)

gilt nicht mehr und man kann deshalb anhand der Wahrscheinlichkeit dafür, dass eine Hypothese korrekt ist, nicht mehr bestimmen, welches die Wahrscheinlichkeit dafür ist, dass die Hypothese nicht korrekt ist. Es reicht daher nicht aus, den Glauben für eine Hypothese, in irgendeiner Weise kombiniert mit dem Glauben daran, dass eine Hypothese nicht stimmt, durch einen einzelnen Wert anzugeben. Anstelle eines einzelnen Wertes wird ein Wahrscheinlichkeitsbereich verwendet. Der Bereich ist gegeben durch die untere Grenze $bel(H)$ und die obere Grenze $pl(H)=1-bel(H^{c})$ , d. h. durch die Wahrscheinlichkeit, mit der angenommen werden darf, dass die Hypothese korrekt ist bzw. nicht korrekt ist.

Im obigen Beispiel führt der Wetterbericht zu einer Evidenz für schönes Wetter $bel({\text{schönes Wetter}})=0{,}8$ . Es gibt aber keinen Grund anzunehmen, dass morgen nicht schönes Wetter sein wird: $bel({\text{schönes Wetter}}^{c})=0$ also $pl({\text{schönes Wetter}})=1$ . Anhand des Wetterberichts liegt die Wahrscheinlichkeit für schönes Wetter also im Bereich 0,8 bis 1,0.

Kombination von Evidenzen Bearbeiten

Der offizielle Wetterbericht meint wie bisher, morgen soll schönes Wetter sein. Eine andere Quelle, z. B. ein Wetterfrosch, dem nur zu 60 % vertraut werden kann, meint ebenfalls, dass morgen schönes Wetter sein wird. Die folgende Tabelle zeigt, wie die Evidenzen verrechnet werden können:

	Wetterbericht zuverlässig (80 %)	Wetterbericht unzuverlässig (20 %)
Frosch zuverlässig (60 %)	Wetter schön: 80 % · 60 % = 48 %	Wetter schön: 20 % · 60 % = 12 %
Frosch unzuverlässig (40 %)	Wetter schön: 80 % · 40 % = 32 %	Wetter unbestimmt: 20 % · 40 % = 8 %

In drei von vier möglichen Fällen ist die Hypothese ${\text{schönes Wetter}}$ bestätigt, da es sich um zuverlässige Quellen handelt. Es darf also mit 48 % + 12 % + 32 % = 92 % Wahrscheinlichkeit angenommen werden, dass das Wetter morgen schön sein wird. Im vierten Fall (8 %) kann keine Aussage über die Hypothese gemacht werden. Dies bedeutet nun $bel({\text{schönes Wetter}})=0{,}92$ und $bel({\text{schönes Wetter}}^{c})=0$ .

Allgemein können Evidenzen $e_{i}$ , die alle eine Hypothese $H$ unterstützen, kombiniert werden mit:

bel(H)=1-(1-e_{1}(H))(1-e_{2}(H))\dots (1-e_{n}(H))

und

bel(H^{c})=0

und entsprechend Evidenzen, die alle gegen eine Hypothese sprechen mit

bel(H)=0

und

bel(H^{c})=1-(1-e_{1}(H))(1-e_{2}(H))\dots (1-e_{n}(H))

Wenn widersprüchliche Evidenzen kombiniert werden sollen, nehmen wir an, der Wetterfrosch behauptet, dass das Wetter nicht schön werde, ergeben sich die folgenden Situationen:

	Wetterbericht zuverlässig (80 %)	Wetterbericht unzuverlässig (20 %)
Frosch zuverlässig (60 %)	unmöglich!: 80 % · 60 % = 48 %	Wetter nicht schön: 20 % · 60 % = 12 %
Frosch unzuverlässig (40 %)	Wetter schön: 80 % · 40 % = 32 %	Wetter unbestimmt: 20 % · 40 % = 8 %

Die Variante, bei der beide Aussagen zutreffen, wird jetzt unmöglich: Wenn beide das Gegenteil behaupten, können nicht beide zuverlässig sein. Nach Dempster und Shafer werden alle möglichen Fälle neu skaliert, so dass die Summe aller Wahrscheinlichkeiten wieder 1 ergibt, d. h. alle Werte für die möglichen Fälle werden durch die Summe aller Werte für die möglichen Fälle dividiert. Daraus ergibt sich:

	Wetterbericht zuverlässig (80 %)	Wetterbericht unzuverlässig (20 %)
Frosch zuverlässig (60 %)	-	Wetter nicht schön: ca. 23 %
Frosch unzuverlässig (40 %)	Wetter schön: ca. 62 %	Wetter unbestimmt: ca. 15 %

Man kann nun also zu etwa 62 % annehmen, dass das Wetter schön sein wird, und zu etwa 23 %, dass das Wetter nicht schön sein wird. Der Wahrscheinlichkeitsbereich für schönes Wetter ist also begrenzt durch die Werte 0,62 und 0,77 (1 - 0,23). Zwei widersprüchliche Evidenzen $e_{1}(H)$ (für die Hypothese) und $e_{2}(H)$ (gegen die Hypothese) können also verrechnet werden zu:

bel(H)={\frac {e_{1}(H)(1-e_{2}(H))}{1-e_{1}(H)e_{2}(H)}}

und

bel(H^{c})={\frac {e_{2}(H)(1-e_{1}(H))}{1-e_{1}(H)e_{2}(H)}}

Vorgehen bei mehreren Hypothesen Bearbeiten

In den bisherigen Beispielen wurde nur der Fall von einer Hypothese betrachtet. Zudem wurden zwei wichtige Bedingungen für die Theorie von Dempster und Shafer nicht erwähnt: Die Hypothesen müssen sich gegenseitig ausschließen und der Hypothesenraum muss vollständig sein, d. h. die korrekte Hypothese muss in der Menge der vorhandenen Hypothesen vorhanden sein. Im Folgenden wird die Vorgehensweise für den allgemeinen Fall mit mehreren, konkurrierenden Hypothesen betrachtet.

Im ersten Beispiel wurden die 20 %, in denen der Wetterbericht unzuverlässig ist, nicht dem Komplement der Hypothese ${\text{schönes Wetter}}$ zugesprochen, sondern sowohl der Hypothese selber als auch deren Komplement, da der Wetterbericht in den 20 % recht haben oder sich irren kann. Bei mehreren Hypothesen wird die Restevidenz, d. h. der Anteil der Evidenzen, der keiner Hypothese zugesprochen werden kann, entsprechend der Gesamtheit der vorhandenen Hypothesen ( $\theta$ ) zugewiesen. Die Zuteilung an die Gesamtheit der Hypothesen ist deshalb sinnvoll, weil angenommen wird, dass der Hypothesenraum vollständig ist.

Sind mehrere Hypothesen vorhanden, dann ist eine Evidenz für eine Hypothese gleichzeitig eine Evidenz gegen die anderen Hypothesen und umgekehrt. Die Evidenz gegen die anderen Hypothesen wird aber, analog zur Restevidenz, nicht unter den anderen Hypothesen aufgeteilt, sondern der Gesamtheit aller anderen Hypothesen zugeschrieben.

Ein Beispiel zu einem Fall mit mehreren Hypothesen: Angenommen ein digitalisiertes Bild, das ein Schriftzeichen darstellt, ist zu klassifizieren. Es liegen drei Hypothesen vor: Das Bild kann ein 'A', ein 'R' oder ein 'B' darstellen, d. h. der Hypothesenraum besteht aus der Menge $\theta$ = {'A', 'R', 'B'}. Weiter nehmen wir an, es existiert eine Evidenz von 0,2 für 'R' $e_{1}(\lbrace 'R'\rbrace )=0{,}2$ und eine Evidenz von 0,6 gegen 'A'. Dies führt zu einer Restevidenz $e_{1}(\theta )=0{,}8$ und $e_{2}(\theta )=0{,}4$ . Die Evidenz gegen 'A' ist eine Evidenz für 'R' und 'B': $e_{2}(\lbrace 'R','B'\rbrace )=0{,}6$ . Die folgende Tabelle fasst die Situation zusammen:

	$e_{1}(\lbrace 'R'\rbrace )=0{,}2$	$e_{1}(\theta )=0{,}8$
$e_{2}(\lbrace 'R','B'\rbrace )=0{,}6$	$e(\lbrace 'R'\rbrace )=0{,}2\cdot 0{,}6=0{,}12$	$e(\lbrace 'R','B'\rbrace )=0{,}8\cdot 0{,}6=0{,}48$
$e_{2}(\theta )=0{,}4$	$e(\lbrace 'R'\rbrace )=0{,}2\cdot 0{,}4=0{,}08$	$e(\theta )=0{,}8\cdot 0{,}4=0{,}32$

Die Evidenzen der Schnittmengen ergeben sich aus dem Produkt der Evidenzen der Mengen, die geschnitten werden. Der Wahrscheinlichkeitsbereich der Hypothesenmenge $\lbrace H_{i}\rbrace$ ist gegeben durch:

bel(\lbrace H_{i}\rbrace )=\sum _{S\subseteq \lbrace H_{i}\rbrace }e(S)

und

bel(\lbrace H_{i}\rbrace ^{c})=\sum _{S\subseteq \theta \setminus \lbrace H_{i}\rbrace }e(S)

In Worten ausgedrückt: Der Glaube $bel(\lbrace H_{i}\rbrace )$ daran, dass eine der Hypothesen $H_{i}$ die richtige ist, ist gegeben durch die Summe der Evidenzen von allen Teilmengen der Hypothesenmenge $\lbrace H_{i}\rbrace$ und $bel(\lbrace H_{i}\rbrace ^{c})$ durch die Summe aller Evidenzen aller Teilmengen der Komplementärmenge der Hypothesenmenge. Für das Beispiel führt dies zu:

bel(\lbrace 'A'\rbrace )=0

bel(\lbrace 'A'\rbrace ^{c})=e(\lbrace 'R','B'\rbrace )+\sum e(\lbrace 'R'\rbrace )=0{,}48+0{,}12+0{,}08=0{,}68

bel(\lbrace 'R'\rbrace )=\sum e(\lbrace 'R'\rbrace )=0{,}12+0{,}08=0{,}2

bel(\lbrace 'R'\rbrace ^{c})=0

bel(\lbrace 'B'\rbrace )=0

bel(\lbrace 'B'\rbrace ^{c})=\sum e(\lbrace 'R'\rbrace )=0{,}12+0{,}08=0{,}2

Das Glaubensintervall für 'A' ist also 0 bis 1 - 0,68, also 0 bis 0,32. Jenes für 'R' ist 0,2 bis 1 - 0, also 0,2 bis 1; und das für 'B' ist 0 bis 1 - 0,2, also 0 bis 0,8.

Kommt nun eine weitere Evidenz $e_{3}(\lbrace 'B'\rbrace )=0{,}3$ , so ergeben sich die Werte in der folgenden Tabelle:

	$e_{3}(\lbrace 'B'\rbrace )=0{,}3$	$e_{3}(\theta )=0{,}7$
$e(\lbrace 'R'\rbrace )=0{,}2$ (aus obiger Tabelle)	$e_{3}(\lbrace \rbrace )=0{,}3\cdot 0{,}2=0{,}06$	$e(\lbrace 'R'\rbrace )=0{,}7\cdot 0{,}2=0{,}14$
$e(\lbrace 'R','B'\rbrace )=0{,}48$ (aus obiger Tabelle)	$e(\lbrace 'B'\rbrace )=0{,}3\cdot 0{,}48=0{,}144$	$e(\lbrace 'R','B'\rbrace )=0{,}7\cdot 0{,}48=0{,}336$
$e(\theta )=0{,}32$ (aus obiger Tabelle)	$e(\lbrace 'B'\rbrace )=0{,}3\cdot 0{,}32=0{,}096$	$e(\theta )=0{,}7\cdot 0{,}32=0{,}224$

Es ergibt sich jetzt eine Evidenz für die leere Menge, was nicht möglich ist, da $\theta$ vollständig sein muss. Wie weiter oben beschrieben, müssen die Evidenzen für die möglichen Werte skaliert werden. Daraus ergibt sich schließlich:

bel(\lbrace 'A'\rbrace )=0

bel(\lbrace 'A'\rbrace ^{c})={\frac {0{,}144}{0{,}94}}+{\frac {0{,}096}{0{,}94}}+{\frac {0{,}14}{0{,}94}}+{\frac {0{,}336}{0{,}94}}\approx 0{,}762

bel(\lbrace 'R'\rbrace )={\frac {0{,}14}{0{,}94}}\approx 0{,}149

bel(\lbrace 'R'\rbrace ^{c})={\frac {0{,}144}{0{,}94}}+{\frac {0{,}096}{0{,}94}}\approx 0{,}255

bel(\lbrace 'B'\rbrace )={\frac {0{,}144}{0{,}94}}+{\frac {0{,}096}{0{,}94}}\approx 0{,}255

bel(\lbrace 'B'\rbrace ^{c})={\frac {0{,}14}{0{,}94}}\approx 0{,}149

Berechnungsverfahren Bearbeiten

Wenn eine Menge von $n$ konkurrierende Hypothesen vorhanden ist, müssen möglicherweise $2^{n}$ Teilmengen (aus der Potenzmenge von $\theta$ ) berücksichtigt werden. Werden die Evidenzen in beliebiger Reihenfolge zusammengetragen, dann wird der Aufwand für einen Algorithmus exponentiell. Es kann aber gezeigt werden (Lit.: Barnett 1981), dass ein Algorithmus mit nur linearem Aufwand entsteht, wenn Evidenzen in geschickter Reihenfolge verrechnet werden. Das Verfahren ist ohne Beweis im Folgenden beschrieben.

Für jede der konkurrierenden Hypothesen $H_{i}$ werden alle Evidenzen für die Hypothese verrechnet:

e^{+}(H_{i})=1-(1-e_{1}(H_{i}))(1-e_{2}(H_{i}))\dots (1-e_{n}(H_{i}))

und entsprechend alle Evidenzen $e^{-}(H_{i})$ gegen die Hypothese. Die gesammelten Evidenzen für und gegen die Hypothese können nun kombiniert werden:

pro(H_{i})={\frac {e^{+}(H_{i})(1-e^{-}(Hi))}{1-e^{+}(H_{i})e^{-}(Hi)}}

und

con(H_{i})={\frac {e^{-}(H_{i})(1-e^{+}(Hi))}{1-e^{+}(H_{i})e^{-}(Hi)}}

Falls nur eine Hypothese vorhanden ist, dann gilt

$bel(H_{i})=pro(H_{i})$ und $bel(H_{i}^{c})=con(H_{i})$

Sind mehrere Hypothesen vorhanden, dann muss berücksichtigt werden, dass jede Evidenz für (gegen) eine Hypothese auch eine Evidenz gegen (für) alle anderen Hypothesen darstellt. Diese Evidenzen müssen miteinbezogen werden, so dass sich ergibt:

bel(H_{i})=K(\lbrack pro(H_{i})\prod _{\forall j\neq i}d(H_{j})\rbrack +\lbrack r(H_{i})\prod _{\forall j\neq i}con(H_{j})\rbrack )

und

bel(H_{i}^{c})=K(\lbrack \prod _{\forall j}d(H_{j})\rbrack \lbrack \sum _{\forall j\neq i}{\frac {pro(H_{j})}{d(H_{j})}}\rbrack +\lbrack con(H_{i})\prod _{\forall j\neq i}d(H_{j})\rbrack -\lbrack \prod _{\forall j}con(H_{j})\rbrack )

wobei

r(H_{j})=1-pro(H_{j})-con(H_{j})

und

d(H_{j})=1-pro(H_{j})

sowie

K={\frac {1}{\lbrack \prod _{\forall j}d(H_{j})\rbrack \lbrack 1+\sum _{\forall j}{\frac {pro(H_{j})}{d(H_{j})}}\rbrack -\prod _{\forall j}con(Hj)}}

Dieser Algorithmus kann verwendet werden, wenn nur Evidenzen für oder gegen einzelne Hypothesen vorliegen, d. h. nicht wenn Evidenzen für oder gegen Mengen von Hypothesen vorliegen. Außerdem müssen die Hypothesen sich gegenseitig ausschließen und die Menge der Hypothesen vollständig sein.

Die letzte Bedingung ist in der Realität oft nicht erfüllt, d. h. es ist nicht sichergestellt, dass die korrekte Hypothese Teil der Lösungsmenge ist. Als Lösung für dieses Problem kann zu dem Satz der konkurrierenden Hypothesen eine weitere hinzugefügt werden, die repräsentativ für alle anderen möglichen Hypothesen steht. Diese Erweiterung hat eine Vereinfachung des oben beschriebenen Algorithmus zur Folge, wenn keine Evidenzen für oder gegen diese Hypothese $\alpha$ vorliegen, also $pro(\alpha )=con(\alpha )=0$ ist. Dies führt nämlich dazu, dass alle Produkte, in denen $pro(\alpha )$ oder $con(\alpha )$ vorkommen, zu 0 werden und deshalb nicht berechnet werden müssen.

Literatur Bearbeiten

Glenn Shafer: A Mathematical Theory of Evidence. Princeton University Press, 1976, ISBN 978-0-691-10042-5.
Glenn Shafer: Dempster-Shafer Theory. In: Encyclopedia of Artificial Intelligence, Second Edition, Stuart C. Shapiro, editor. Wiley. 1992., S. 330–331.
J. A. Barnett: Computational Methods for a Mathematical Theory of Evidence. In: Proc. IJCAI-81. 1981, S. 868–875, doi:10.1007/978-3-540-44792-4_8.
Andreas Garzotto: Vollautomatische Erkennung von Schriftzeichen in gedrucktem Schriftgut. Erhöhung der Zuverlässigkeit durch Kombination von unsicherem Wissen aus konkurrierenden Quellen. Dissertation, Universität Zürich 1994
Jochen Heinsohn, Rolf Socher-Ambrosius: Wissensverarbeitung. Eine Einführung. Spektrum Akademischer Verlag, 2007, ISBN 978-3-8274-1844-9.
Sabrina H. Kessler: Das ist doch evident! Eine Analyse dargestellter Evidenzframes und deren Wirkung am Beispiel von TV-Wissenschaftsbeiträgen (Reihe Medien + Gesundheit, Band 12). Nomos, Baden-Baden 2016, DOI:10.5771/9783845275468

Einzelnachweise Bearbeiten

↑ ^a ^b Dempster, A.P., Upper and lower probabilities induced from a multivalued mapping, Ann.Math.Statist. 38 (1967), 325–339
↑ Glenn Shafer: A Mathematical Theory of Evidence. Princeton University Press 1976
↑ Andreas Garzotto: Vollautomatische Erkennung von Schriftzeichen in gedrucktem Schriftgut. Erhöhung der Zuverlässigkeit durch Kombination von unsicherem Wissen aus konkurrierenden Quellen. Dissertation, Universität Zürich 1994

[D-1] Dempster, A.P., Upper and lower probabilities induced from a multivalued mapping, Ann.Math.Statist. 38 (1967), 325–339

[2] Glenn Shafer: A Mathematical Theory of Evidence. Princeton University Press 1976

[3] Andreas Garzotto: Vollautomatische Erkennung von Schriftzeichen in gedrucktem Schriftgut. Erhöhung der Zuverlässigkeit durch Kombination von unsicherem Wissen aus konkurrierenden Quellen. Dissertation, Universität Zürich 1994

[1]

[2]

[3]