Belief (deutsch: Glaubhaftigkeit) und Plausibilität (engl.: plausibility) sind Grundbegriffe in Glenn Shafers Evidenztheorie.[1] Die Evidenztheorie modelliert Ungewissheit, die nicht nur (wie in der Wahrscheinlichkeitstheorie) vom Zufall, sondern auch von unvollständigem Wissen herrührt. Sie wird angewendet z. B. in der Künstlichen Intelligenz, insbesondere bei der Konstruktion wissensbasierter Systeme (knowledge based systems), bei der Wissensrepräsentation (knowledge representation), bei Wissenszusammenfassung (knowledge aggregation) und Wissensvermehrung (knowledge propagation).

Einführende Beschreibung

Bearbeiten

Sei   ein endliches Universum. Beispielsweise sind die   mögliche Antworten auf ein Problem. Es ist gewiss, dass eine Antwort zutrifft, aber es ist ungewiss, welche das ist. Man unterscheidet folgende Fälle:

  • totale Evidenz: Man hat maximales Wissen in dem Sinne, dass alle Wahrscheinlichkeiten für das Eintreten der   bekannt sind, d. h. die Wahrscheinlichkeitsverteilung über   ist eindeutig bestimmt. Die Ungewissheit hängt nur vom Zufall ab.
  • partielle Evidenz: Man hat nur unvollständiges Wissen über die Wahrscheinlichkeitsverteilung über   und kann daher für ein Ereignis   nur Schranken für die Wahrscheinlichkeit angeben. Die untere Schranke ist auf alle Fälle glaubhaft als mögliche Wahrscheinlichkeit und heißt daher „Belief“, die obere Schranke für die mögliche Wahrscheinlichkeit ist immer noch plausibel und heißt daher Plausibilität. Die Ungewissheit hängt jetzt nicht nur vom Zufall ab, sondern auch vom fehlenden Wissen.
  • totale Ignoranz: Man hat kein Wissen über  . Von den Wahrscheinlichkeiten für   kann man nur sagen, dass sie zwischen Null und Eins liegen, d. h. es liegt totale Ungewissheit vor.

Beispiel

Bearbeiten

Es sind Zigaretten gestohlen worden. Die Diebe können nur Peter, Paul oder Egon sein, also  . Folgender Wissensstand liegt vor: Jeder könnte allein den Diebstahl begangen haben, und zwar mit den Wahrscheinlichkeiten

 .

Meist aber stehlen Peter und Paul gemeinsam, selten gehen alle drei auf Tour, d. h. die noch fehlende Wahrscheinlichkeit von   teilt sich z. B. in

 .

Daraus kann man die Schranken für die Wahrscheinlichkeit   der Täterschaften ausrechnen:

 .

Formale Beschreibung von Belief und Plausibilität

Bearbeiten

Sei   die Potenzmenge von  ,   ein Wahrscheinlichkeitsmaß auf   und   die Menge aller Teilmengen von  , die eine positive Wahrscheinlichkeit (d. h. einen positiven Teil der Evidenz) tragen. Dabei trägt ein   nur den Teil der Wahrscheinlichkeit (der Evidenz), die nicht schon von Teilmengen von   getragen wird, siehe auch obiges Beispiel.   heißt Evidenzkörper (engl. body of evidence). Das Wahrscheinlichkeitsmaß   auf   wird häufig Evidenz auf   genannt. Wenn  , dann liegt eine totale Evidenz vor, im Falle   hat man die totale Ignoranz. Belief und Plausibilität sind nun definiert durch

 .

Es gilt immer  . Für eine totale Evidenz gilt   und für eine totale Ignoranz hat man  .   ist eine normierte vollständig monotone Kapazität,   ist eine normierte vollständig alternierende Kapazität.

Beispiel (fortgesetzt)

Bearbeiten

Es ergeben sich mit   folgende Werte:

Peter Paul Egon Peter oder Paul Peter oder Egon Paul oder Egon
Belief 0,1 0,2 0,3 0,6 0,4 0,5
Plausibilität 0,5 0,6 0,4 0,7 0,8 0,9

Die Wahrscheinlichkeit  , dass Peter der Dieb ist, liegt also zwischen   und  , die Wahrscheinlichkeit, dass es Peter oder Paul sind, liegt zwischen   und   usw.

Dempsters Kombinationsregel

Bearbeiten

Dempsters Kombinationsregel (engl. Dempster rule of combination) ist ein wesentliches Werkzeug der Evidenztheorie. Mit dieser Regel können verschiedene Evidenzen zu einer neuen Evidenz zusammengefasst werden[2]. Seien   zwei verschiedene Evidenzen auf demselben   und   ihre Evidenzkörper. Die kombinierte Evidenz   ergibt sich gemäß:

 

  berücksichtigt nur die „Konsensteile“ der beiden Evidenzen  , d. h. für ein   nur die  , die   gemäß   „erzeugen“. Alle   mit   werden nicht berücksichtigt, weil es Evidenzteile sind, die nichts Gemeinsames haben, also miteinander in Konflikt stehen. Die Größe   im Nenner heißt daher auch Konflikt der beiden Evidenzen  .

Beispiel (fortgesetzt)

Bearbeiten

Wir benutzen das Diebstahlbeispiel von oben mit  . Sei   die Evidenz aus obigem Beispiel und   eine weitere Evidenz, die Egon mit  , Peter und Paul mit   und alle zusammen mit   als Täter sieht.   mit den entsprechenden Wahrscheinlichkeiten ist in den folgenden beiden Tabellen aufgelistet:

   
Peter Paul Egon Peter und Paul alle ( ) Egon Peter und Paul alle ( )
0,1 0,2 ´0,3 0,3 0,1 0,3 0,6 0,1

Berechnen wir erst den Konflikt: Es gibt 4 disjunkte Pärchen zwischen beiden Evidenzen, nämlich (Peter, Egon), (Paul, Egon), (Egon, Peter und Paul) und (Peter und Paul, Egon), d. h. es ergibt sich  . Der Nenner in der Dempster-Regel ist also  . Berechnen wir zum Beispiel  . Es ergeben zwei Pärchen als Durchschnitt gerade (Peter), nämlich (Peter, Peter und Paul) und (Peter, alle( )), d. h. im Zähler der Regel steht  , also ergibt sich  . Die folgende Tabelle zeigt das Gesamtergebnis:

 
Peter Paul Egon Peter und Paul alle ( )
0,109 0,219 0,234 0,422 0,016

Eigenschaften

Bearbeiten
  • Die totale Ignoranz   ist das „Einselement“ der Dempster-Regel, d. h. es gilt:  .
  • Eine totale Evidenz   gekoppelt mit einer beliebigen Evidenz   ergibt wieder eine totale Evidenz, wobei allerdings   gilt.
  • Seien   zwei totale Evidenzen auf   mit  . Dann ist   eine totale Evidenz mit den Wahrscheinlichkeiten
 .
Wenn man   als a-priori-Wahrscheinlichkeit interpretiert und   als (aktuelle) Likelihood-Verteilung, dann ist diese Formel identisch mit der bayesschen Formel zur Bestimmung der a-posteriori-Wahrscheinlichkeit.

  „vergisst“ die Konfliktteile zwischen   und  , was insbesondere bei großem   häufig gegen jede Intuition verstößt. Sei z. B.  . Die Evidenz   sei gegeben durch   und die Evidenz   durch  . Dann ist   bestimmt durch  , d. h. der große Konflikt zwischen   und   ist vergessen. Wenn   beispielsweise drei Filme sind und   die Interessen daran von Paul und Paula beschreiben, dann mag das hingehen, weil man sich auf den Konsensfilm   einigt. Wenn aber   und   die Meinung zweier Ärzte beschreiben, dann ist es völlig kontraintuitiv, dass man sich auf den kleinen Konsensteil   zurückzieht.

Dabei muss aber beachtet werden, dass im obigen Beispiel der Arzt   offensichtlich eine totale Evidenz hat, dass es gar keine Gehirnhautentzündung sein kann, denn er räumt dieser Option eine Plausibilität von exakt null zu. Der Arzt   dagegen hat eine totale Evidenz, dass kein Tumor vorhanden ist. Da jeweils für eine der Optionen ein definitiver Beweis vorliegt, dass sie nicht in Frage kommen  , scheint auch intuitiv nachvollziehbarer, dass man sich auf die Resthypothese zurückzieht, der Patient habe eine Gehirnerschütterung, auch wenn keiner der Ärzte das für wahrscheinlich angenommen hat. Pathologisch an diesem Beispiel ist zudem, dass die Ärzte sich zu 100 % sicher sind, sich nicht irren zu können, dennoch aber sehr schlecht schätzen.

Weiterentwicklungen

Bearbeiten

Es gibt vielfältige Modifikationen und Weiterentwicklungen, beispielsweise was die exponentielle Komplexität der Dempster-Regel[3][4], aber auch die Kritik an der Dempster-Regel betrifft.[5][6][7]

Literatur

Bearbeiten
  • G. Shafer: Perspectives on the theory and practice of belief functions. In: International Journal of Approximate Reasoning. 3, 1990, S. 1–40.
  • G. Shafer, J. Pearl (Hrsg.): Readings in Uncertain Reasoning. Morgan Kaufmann, 1990.
  • J. Pearl: Reasoning with Belief Functions: Analysis of Compatibility, The International Journal of Approximate Reasoning 4 (1990), S. 363–389. doi:10.1016/0888-613X(90)90013-R
  • R. Kruse, E. Schwecke, J. Heinsohn: Uncertainty and Vagueness in Knowledge Based Systems, Springer 1991.
  • R.R. Yager, L. Lui: Classic works of the Dempster-Shafer theory of belief functions, Springer 2008.

Einzelnachweise

Bearbeiten
  1. Glenn Shafer: A Mathematical Theory of Evidence. Princeton University Press 1976.
  2. A. P. Dempster: A generalization of Bayesian inference. Journal of the Royal Statistical Society. Series B 30, 1968, S. 205–247 (full text).
  3. Gordon, J. and E.H. Shortliffe: The Dempster-Shafer Theory of Evidence, in: Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project (eds. Buchanan, B.G. and E.H. Shortliffe), Addison-Wesley 1984, S. 272–292 (MYCIN project).
  4. Shenoy, P.P., und G. Shafer, Propagating belief functions using local computations, IEEE Expert 1 (1986), S. 43–52.
  5. Ruspini, E.: The logical foundations of evidential reasoning, SRI Technical Note 408, 1986 (revised 1987).
  6. Wilson, N.: The assumptions behind Dempster’s rule, in: Proceedings of the 9th Conference on Uncertainty in Artificial Intelligence, S. 527–534, Morgan Kaufmann Publishers 1993, San Mateo, CA, USA.
  7. Voorbraak, F.: On the justification of Dempster’s rule of combination, Artificial Intelligence 48, 1991, S. 171–197.