Belief und Plausibilität

Aus testwiki
Zur Navigation springen Zur Suche springen

Belief (deutsch: Glaubhaftigkeit) und Plausibilität (engl.: plausibility) sind Grundbegriffe in Glenn Shafers Evidenztheorie.[1] Die Evidenztheorie modelliert Ungewissheit, die nicht nur (wie in der Wahrscheinlichkeitstheorie) vom Zufall, sondern auch von unvollständigem Wissen herrührt. Sie wird angewendet z. B. in der Künstlichen Intelligenz, insbesondere bei der Konstruktion wissensbasierter Systeme (knowledge based systems), bei der Wissensrepräsentation (knowledge representation), bei Wissenszusammenfassung (knowledge aggregation) und Wissensvermehrung (knowledge propagation).

Einführende Beschreibung

Sei U={u1,u2,,un} ein endliches Universum. Beispielsweise sind die ui mögliche Antworten auf ein Problem. Es ist gewiss, dass eine Antwort zutrifft, aber es ist ungewiss, welche das ist. Man unterscheidet folgende Fälle:

  • totale Evidenz: Man hat maximales Wissen in dem Sinne, dass alle Wahrscheinlichkeiten für das Eintreten der ui bekannt sind, d. h. die Wahrscheinlichkeitsverteilung über U ist eindeutig bestimmt. Die Ungewissheit hängt nur vom Zufall ab.
  • partielle Evidenz: Man hat nur unvollständiges Wissen über die Wahrscheinlichkeitsverteilung über U und kann daher für ein Ereignis AU nur Schranken für die Wahrscheinlichkeit angeben. Die untere Schranke ist auf alle Fälle glaubhaft als mögliche Wahrscheinlichkeit und heißt daher „Belief“, die obere Schranke für die mögliche Wahrscheinlichkeit ist immer noch plausibel und heißt daher Plausibilität. Die Ungewissheit hängt jetzt nicht nur vom Zufall ab, sondern auch vom fehlenden Wissen.
  • totale Ignoranz: Man hat kein Wissen über U. Von den Wahrscheinlichkeiten für AU kann man nur sagen, dass sie zwischen Null und Eins liegen, d. h. es liegt totale Ungewissheit vor.

Beispiel

Es sind Zigaretten gestohlen worden. Die Diebe können nur Peter, Paul oder Egon sein, also U={Peter,Paul,Egon}. Folgender Wissensstand liegt vor: Jeder könnte allein den Diebstahl begangen haben, und zwar mit den Wahrscheinlichkeiten

P(Peter)=0,1;P(Paul)=0,2;P(Egon)=0,3.

Meist aber stehlen Peter und Paul gemeinsam, selten gehen alle drei auf Tour, d. h. die noch fehlende Wahrscheinlichkeit von 0,4 teilt sich z. B. in

P(Peter,Paul)=0,3;P(Peter,Paul,Egon)=P(U)=0,1.

Daraus kann man die Schranken für die Wahrscheinlichkeit Prob der Täterschaften ausrechnen:

0,1Prob(Peter)0,5;0,2Prob(Paul)0,6;0,3Prob(Egon)0,4.

Formale Beschreibung von Belief und Plausibilität

Sei 𝒫(U) die Potenzmenge von U, P ein Wahrscheinlichkeitsmaß auf 𝒫(U) und F(P):={B𝒫(U):P(B)>0} die Menge aller Teilmengen von U, die eine positive Wahrscheinlichkeit (d. h. einen positiven Teil der Evidenz) tragen. Dabei trägt ein BF(P) nur den Teil der Wahrscheinlichkeit (der Evidenz), die nicht schon von Teilmengen von B getragen wird, siehe auch obiges Beispiel. F(P) heißt Evidenzkörper (engl. body of evidence). Das Wahrscheinlichkeitsmaß P auf 𝒫(U) wird häufig Evidenz auf U genannt. Wenn F(P)={{u1},{u2},,{un}}, dann liegt eine totale Evidenz vor, im Falle F(P)={U} hat man die totale Ignoranz. Belief und Plausibilität sind nun definiert durch

Bel(A)=BF(P):BAP(B);Pl(A)=1Bel(A)=BF(P):BAP(B);A𝒫(U).

Es gilt immer Bel(A)Pl(A). Für eine totale Evidenz gilt Bel(A)=Pl(A)=Prob(A) und für eine totale Ignoranz hat man Bel(A)=0;Pl(A)=1. Bel ist eine normierte vollständig monotone Kapazität, Pl ist eine normierte vollständig alternierende Kapazität.

Beispiel (fortgesetzt)

Es ergeben sich mit F(P)={Peter,Paul,Egon,{Peter,Paul},U} folgende Werte:

Peter Paul Egon Peter oder Paul Peter oder Egon Paul oder Egon
Belief 0,1 0,2 0,3 0,6 0,4 0,5
Plausibilität 0,5 0,6 0,4 0,7 0,8 0,9

Die Wahrscheinlichkeit Prob, dass Peter der Dieb ist, liegt also zwischen 0,1 und 0,5, die Wahrscheinlichkeit, dass es Peter oder Paul sind, liegt zwischen 0,6 und 0,7 usw.

Dempsters Kombinationsregel

Dempsters Kombinationsregel (engl. Dempster rule of combination) ist ein wesentliches Werkzeug der Evidenztheorie. Mit dieser Regel können verschiedene Evidenzen zu einer neuen Evidenz zusammengefasst werden[2]. Seien P1,P2 zwei verschiedene Evidenzen auf demselben U und F(P1),F(P2) ihre Evidenzkörper. Die kombinierte Evidenz P1P2 ergibt sich gemäß:

P1P2(A)=BF(P1),CF(P2):BC=AP1(B)P2(C)/(1K);K=BF(P1),CF(P2):BC=P1(B)P2(C);A𝒫(U).

P1P2 berücksichtigt nur die „Konsensteile“ der beiden Evidenzen P1,P2, d. h. für ein A𝒫(U) nur die BF(P1),CF(P2), die A gemäß BC=A „erzeugen“. Alle BF(P1),CF(P2) mit BC= werden nicht berücksichtigt, weil es Evidenzteile sind, die nichts Gemeinsames haben, also miteinander in Konflikt stehen. Die Größe K im Nenner heißt daher auch Konflikt der beiden Evidenzen P1,P2.

Beispiel (fortgesetzt)

Wir benutzen das Diebstahlbeispiel von oben mit U={Peter,Paul,Egon}. Sei P1 die Evidenz aus obigem Beispiel und P2 eine weitere Evidenz, die Egon mit 0,3, Peter und Paul mit 0,6 und alle zusammen mit 0,1 als Täter sieht. F(P1,F(P2)) mit den entsprechenden Wahrscheinlichkeiten ist in den folgenden beiden Tabellen aufgelistet:

F(P1) F(P2)
Peter Paul Egon Peter und Paul alle (=U) Egon Peter und Paul alle (=U)
0,1 0,2 ´0,3 0,3 0,1 0,3 0,6 0,1

Berechnen wir erst den Konflikt: Es gibt 4 disjunkte Pärchen zwischen beiden Evidenzen, nämlich (Peter, Egon), (Paul, Egon), (Egon, Peter und Paul) und (Peter und Paul, Egon), d. h. es ergibt sich K=0,10,3+0,20,3+0,30,6+0,30,3=0,36. Der Nenner in der Dempster-Regel ist also 1K=0,64. Berechnen wir zum Beispiel P1P2(Peter). Es ergeben zwei Pärchen als Durchschnitt gerade (Peter), nämlich (Peter, Peter und Paul) und (Peter, alle(=U)), d. h. im Zähler der Regel steht 0,10,6+0,10,1=0,07, also ergibt sich P1P2(Peter)=0,07/0,64=0,109. Die folgende Tabelle zeigt das Gesamtergebnis:

P1P2
Peter Paul Egon Peter und Paul alle (=U)
0,109 0,219 0,234 0,422 0,016

Eigenschaften

  • Die totale Ignoranz I ist das „Einselement“ der Dempster-Regel, d. h. es gilt: PI=P.
  • Eine totale Evidenz PT gekoppelt mit einer beliebigen Evidenz P ergibt wieder eine totale Evidenz, wobei allerdings PTPPT gilt.
  • Seien P1,P2 zwei totale Evidenzen auf U mit P1({ui})=pi(1),P2({ui})=pi(2);uiU;i=1,,n. Dann ist P1P2 eine totale Evidenz mit den Wahrscheinlichkeiten
(p1p2)i=pi(1)pi(2)j=1npj(1)pj(2);i=1,,n.
Wenn man P1 als a-priori-Wahrscheinlichkeit interpretiert und P2 als (aktuelle) Likelihood-Verteilung, dann ist diese Formel identisch mit der bayesschen Formel zur Bestimmung der a-posteriori-Wahrscheinlichkeit.

Kritik

P1P2 „vergisst“ die Konfliktteile zwischen P1 und P2, was insbesondere bei großem K häufig gegen jede Intuition verstößt. Sei z. B. U={A,B,C}. Die Evidenz P1 sei gegeben durch P1({A})=0,99;P1({C})=0,01 und die Evidenz P2 durch P2({B})=0,99;P2({C})=0,01. Dann ist P1P2 bestimmt durch P1P2({C})=1, d. h. der große Konflikt zwischen A und B ist vergessen. Wenn A,B,C beispielsweise drei Filme sind und P1,P2 die Interessen daran von Paul und Paula beschreiben, dann mag das hingehen, weil man sich auf den Konsensfilm C einigt. Wenn aber A=Gehirntumor;B=Gehirnhautentzündung;C=Gehirnerschütterung und P1,P2 die Meinung zweier Ärzte beschreiben, dann ist es völlig kontraintuitiv, dass man sich auf den kleinen Konsensteil Gehirnerschütterung zurückzieht.

Dabei muss aber beachtet werden, dass im obigen Beispiel der Arzt P1 offensichtlich eine totale Evidenz hat, dass es gar keine Gehirnhautentzündung sein kann, denn er räumt dieser Option eine Plausibilität von exakt null zu. Der Arzt P2 dagegen hat eine totale Evidenz, dass kein Tumor vorhanden ist. Da jeweils für eine der Optionen ein definitiver Beweis vorliegt, dass sie nicht in Frage kommen (Pl(A)=Pl(B)=0), scheint auch intuitiv nachvollziehbarer, dass man sich auf die Resthypothese zurückzieht, der Patient habe eine Gehirnerschütterung, auch wenn keiner der Ärzte das für wahrscheinlich angenommen hat. Pathologisch an diesem Beispiel ist zudem, dass die Ärzte sich zu 100 % sicher sind, sich nicht irren zu können, dennoch aber sehr schlecht schätzen.

Weiterentwicklungen

Es gibt vielfältige Modifikationen und Weiterentwicklungen, beispielsweise was die exponentielle Komplexität der Dempster-Regel[3][4], aber auch die Kritik an der Dempster-Regel betrifft.[5][6][7]

Literatur

  • G. Shafer: Perspectives on the theory and practice of belief functions. In: International Journal of Approximate Reasoning. 3, 1990, S. 1–40.
  • G. Shafer, J. Pearl (Hrsg.): Readings in Uncertain Reasoning. Morgan Kaufmann, 1990.
  • J. Pearl: Reasoning with Belief Functions: Analysis of Compatibility, The International Journal of Approximate Reasoning 4 (1990), S. 363–389. Vorlage:DOI
  • R. Kruse, E. Schwecke, J. Heinsohn: Uncertainty and Vagueness in Knowledge Based Systems, Springer 1991.
  • R.R. Yager, L. Lui: Classic works of the Dempster-Shafer theory of belief functions, Springer 2008.

Einzelnachweise

  1. Glenn Shafer: A Mathematical Theory of Evidence. Princeton University Press 1976.
  2. A. P. Dempster: A generalization of Bayesian inference. Journal of the Royal Statistical Society. Series B 30, 1968, S. 205–247 (full text).
  3. Gordon, J. and E.H. Shortliffe: The Dempster-Shafer Theory of Evidence, in: Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project (eds. Buchanan, B.G. and E.H. Shortliffe), Addison-Wesley 1984, S. 272–292 (MYCIN project).
  4. Shenoy, P.P., und G. Shafer, Propagating belief functions using local computations, IEEE Expert 1 (1986), S. 43–52.
  5. Ruspini, E.: The logical foundations of evidential reasoning, SRI Technical Note 408, 1986 (revised 1987).
  6. Wilson, N.: The assumptions behind Dempster’s rule, in: Proceedings of the 9th Conference on Uncertainty in Artificial Intelligence, S. 527–534, Morgan Kaufmann Publishers 1993, San Mateo, CA, USA.
  7. Voorbraak, F.: On the justification of Dempster’s rule of combination, Artificial Intelligence 48, 1991, S. 171–197.