Fuzzy Retrieval: Unterschied zwischen den Versionen

Aktuelle Version vom 16. Oktober 2024, 11:09 Uhr

Das Fuzzy Retrieval hat sich seit den 1970er-Jahren entwickelt. Hier benennt Fuzzy-Information-Retrieval ein Information Retrieval, das auf der Fuzzy-Logik basiert.

Das Fuzzy-IR-Modell

Das Fuzzy-IR-Modell ist zu definieren mit einem Quadrupel $⟨ T, Q, D, F ⟩$ , wobei

$T = {t_{1}, t_{2}, \dots, t_{n}}$ eine Menge von Index termen, die Abfragen und Dokumente beschreiben.
$Q = {q_{1}, q_{2}, \dots, q_{m}}$ eine Menge von Abfragen, die aus Indextermen bestehen. Dabei lassen sich die Indexterme durch logische Operationen AND, OR und NOT verknüpfen.
$D = {d_{1}, d_{2}, \dots, d_{k}}$ eine Menge von Dokumenten. Jedes $d_{j} \in D, j = 1, 2, \dots, k$ ist durch ${(t_{1}, w_{j 1}), \dots, (t_{n}, w_{j n})}$ zu repräsentieren, wobei $w_{j i} (i = 1, 2, \dots, n)$ die Wichtigkeit von Term $t_{i}$ in $d_{j}$ darstellt und einen Wert aus dem Intervall $[0, 1]$ einnimmt.
$F$ ist eine Rankingfunktion

F : D \times Q \to [0, 1]

,

F (d, q) \in [0, 1]

.

Der Wert repräsentiert die Ähnlichkeit zwischen dem Dokument $d$ und der Abfrage $q$ .

Für eine Abfrage gilt Folgendes:

Eine Abfrage $q$ ist eine wohlgeformte, propositionale Formel.
Ein individueller Indexterm ist eine Abfrage: $q = t_{i}$ . Diese Art von Abfrage nennt man Atomabfrage.
Wenn $q$ eine Abfrage ist, ist $\neg q$ (die Negation von $q$ ) auch eine Abfrage.
Wenn $q$ und $q^{'}$ Abfragen sind, sind $q \cup q^{'}$ ( $q$ oder $q^{'}$ ) und $q \cap q^{'}$ ( $q$ und $q^{'}$ ) auch Abfragen.

Die Fuzzy-Mengen-Operationen werden wie folgt verwendet:

F (d_{j}, t_{1} AND t_{2}) = \min (w_{j 1}, w_{j 2})

F (d_{j}, t_{1} OR t_{2}) = \max (w_{j 1}, w_{j 2})

F (d_{j}, {t_{1}}^{'}) = 1 - w_{j 1}

Nun wird ein Beispiel zur Verdeutlichung der Anwendung von Fuzzy-IR-Modell genannt. Die Abfrage lautet:

q_{1} = Golden AND Silver

Es gibt zwei Dokumente:

d_{1} = {(Golden, 0, 4), (Silver, 0, 4)}

d_{2} = {(Golden, 0, 4), (Silver, 0, 7)}

Nach der Operation kommt es zum Ergebnis:

F (d_{1}, t_{1} AND t_{2}) = \min (0, 4, 0, 4) = 0, 4

F (d_{2}, t_{1} AND t_{2}) = \min (0, 4, 0, 7) = 0, 4

Die gleichen Resultate bei $d_{1}$ und $d_{2}$ sagen aus, dass die Ähnlichkeit zwischen $d_{1}$ und $q_{1}$ mit der zwischen $d_{2}$ und $q_{1}$ gleich ist. Aber die meisten Leute würden entscheiden, dass $d_{2}$ dem $q_{1}$ ähnlicher als $d_{1}$ wäre. Hier ist das unerwünschte Ergebnis darauf zurückzuführen, dass die Operation nur auf ein Termgewicht Rücksicht nimmt. Zudem beschränken sich die einfachen Fuzzy-Menge-Operationen lediglich auf zwei Terme. Folgend werden zwei entwickelte Fuzzy-Modelle vorgestellt, die beliebig viele Terme evaluieren können. Weiterhin lässt sich ein Parameter als „softness factor“ zur Lösung des obengenannten Problems (des auf ein Gewicht angewiesenen Ergebnisses) in die Modelle einführen.

Erweiterte Fuzzy-IR-Modelle

Das Waller-Kraft-Modell

$F (d_{j}, t_{1} AND \dots AND t_{n}) = (1 - γ) \cdot \min {w_{j 1}, \dots, w_{j n}} + γ \cdot \max w_{j 1}, \dots, w_{j n}$ , $0 ≦ γ ≦ 0, 5$ ;

$F (d_{j}, t_{1} OR \dots OR t_{n}) = (1 - γ) \cdot \min {w_{j 1}, \dots, w_{j n}} + γ \cdot \max {w_{j 1}, \dots, w_{j n}}$ , $0, 5 ≦ γ ≦ 1$ .

Das Modell mischt die Operation Maximum mit Minimum und hat bessere Effektivität als beim einfachen Fuzzy-Modell.

Das Paice-Modell

Bei einer AND-Verknüpfung: $w_{j i}$ der Größe nach in ansteigender Reihenfolge sortiert, d. h. $w_{j 1} ≦ \dots ≦ w_{j n}$

$F (d_{j}, t_{1} AND \dots AND t_{n}) = [\sum_{i = 1}^{n} (r^{i - 1} \dots w_{j i})] / [\sum_{i = 1}^{n} r^{i - 1}]$ , $0 ≦ r ≦ 1$ .

Bei einer OR-Verknüpfung: $w_{j i}$ der Größe nach in absteigender Reihenfolge sortiert, d. h. $w_{j 1} ≧ \dots ≧ w_{j n}$

$F (d_{j}, t_{1} OR \dots OR t_{n}) = [\sum_{i = 1}^{n} (r^{i - 1} \cdot w_{j i})] / [\sum_{i = 1}^{n} r^{i - 1}]$ , $0 ≦ r ≦ 1$ .

Dieses Modell berücksichtigt alle Termgewichte bei der Berechnung der Ähnlichkeit. Aber es verlangt höheren Berechnungsaufwand als beim Waller-Kraft-Modell.

Vergleich

In der folgenden Tabelle werden die Ergebnisse von $d_{1}$ und $d_{2}$ bei einfachem Fuzzy-IR-Modell, Waller-Kraft-Modell sowie Paice-Modell miteinander verglichen.

$q_{1} = t_{1} AND t_{2}$	Einfaches Fuzzy IR-Modell	Waller-Kraft-Modell ( $γ = 0, 3$ )	Paice-Modell ( $r = 0, 3$ )
$d_{1} = ((t_{1}, 0, 4), (t_{2}, 0, 4))$	$0, 4$	$(1 - 0, 3) \cdot 0, 4 + 0, 3 \cdot 0, 4 = 0, 4$	$(0, 3^{0} \cdot 0, 4 + 0, 3^{1} \cdot 0, 4) / (0, 3^{0} + 0, 3^{1}) = 0, 4$
$d_{2} = ((t_{1}, 0, 4), (t_{2}, 0, 7))$	$0, 4$	$(1 - 0, 3) \cdot 0, 4 + 0, 3 \cdot 0, 7 = 0, 49$	$(0, 3_{0} \cdot 0, 4 + 0, 3^{1} \cdot 0, 7) / (0, 3^{0} + 0,^{1}) = 0, 47$

Der Ähnlichkeitsgrad zwischen $d_{1}$ und $q_{1}$ ist bei den drei Modellen gleich, das ist verständlich. Der Unterschied entsteht bei den Ergebnissen von $d_{2}$ , wobei die von den zwei erweiterten Modellen größer als das bei einfachem Fuzzy-IR-Modell sind, was eher der Erwartung entspricht. Deswegen kann man sagen, dass die beiden Modelle bessere Effektivität beim Auffinden als das einfache Fuzzy-IR-Modell haben.

Zwar mischt das Waller-Kraft-Modell Maximum mit Minimum, aber es beachtet nur diese zwei Termgewichte, was zum Problem bei Abfragen mit mehr als zwei Termen führen kann. Beispiel:

q_{2} = t_{1} OR t_{2} OR t_{3} OR t_{4} OR t_{5}

d_{3} = {(t_{1}, 0, 1), (t_{2}, 0, 5), (t_{3}, 0, 5), (t_{4}, 0, 5), (t_{5}, 0, 8)}

d_{4} = {(t_{1}, 0, 1), (t_{2}, 0, 2), (t_{3}, 0, 2), (t_{4}, 0, 2), (t_{5}, 0, 8)}

Es ist klar, dass der Ähnlichkeitsgrad zwischen $d_{3}$ und $q_{2}$ größer als der zwischen $d_{4}$ und $q_{2}$ ist. Aber nach der Gleichung bei Waller-Kraft-Modell werden gleiche Ergebnisse bei $d_{3}$ und $d_{4}$ berechnet, welcher Wert für den Parameter $γ$ auch bestimmt wird, weil es bei diesem Modell nur auf das $\min$ und $\max$ -Termgewicht Rücksicht genommen wird. Somit entsteht das Problem. Im Vergleich dazu ist das Paice-Modell zwar komplexer, aber es berücksichtigt alle Termgewichte bei der Berechnung und vermeidet deswegen dieses Problem.

Die Einführung des Termgewichtes in die Abfrage

Die gerade gezeigten Modelle berücksichtigen keine Gewichte von Termen in Abfrage, wobei alle Terme die gleiche Wichtigkeit in Abfragen haben. Es ist bekannt, dass die Einführung der Gewichte von Termen in die Abfragen die Effektivität des Auffindens verbessern kann. Mit dem Termgewicht wird die Abfrage repräsentiert: $q_{k} = {(t_{1}, w_{k 1}), \dots, (t_{n}, w_{k n})}$ , $w_{k} \in [0, 1]$ . Im Retrieval werden die Gewichte von Termen in Abfragen und Dokumenten multipliziert, das heißt

F (d_{j}, (t_{i}, w_{k i})) = w_{j i} \cdot w_{k i}

.

Eine Abfrage ohne Termgewicht gleicht einer Abfrage, in der die Gewichte von allen Termen „1“ betragen. Ein Term wird weggenommen, wenn dessen Gewicht null ist, das bedeutet, dass der Term keinen Einfluss auf die Abfrage hat.

Obwohl das Waller-Kraft-Modell und das Paice-Modell keine Methode anbieten, die Termgewichte in Abfragen zu evaluieren, hat das P-Norm-Modell Formeln für die Kalkulation der Termgewichte in Abfragen.

Fuzzy-IR-Modell mit Abfrage-Gewichten

Das P-Norm-Modell mit Abfrage-Gewichten^[1]

$F (d_{j}, (t_{q (k) 1}, w_{q (k) 1}) AND \dots AND (t_{q (k) n}, w_{q (k) n})) = 1 - {[[\sum_{i = 1}^{n} (1 - w_{j i})^{p} \cdot w_{q (k) i}^{p}] / [\sum_{i = 1}^{n} w_{j i}^{p}]]}^{1 / p}$ , $1 ≦ p < \infty$ ,

$F (d_{j}, (t_{q (k) 1}, w_{q (k) 1}) OR \dots OR (t_{q (k) n}, w_{q (k) n})) = 1 - {[[\sum_{i = 1}^{n} w_{j i}^{p} \cdot w_{q (k) i}^{p}] / [\sum_{i = 1}^{n} w_{j i}^{p}]]}^{1 / p}$ , $1 ≦ p < \infty$ .

Hier ist $p$ der Parameter und repräsentiert den Grad an Genauigkeit. „1“ bedeutet wenig genau, während $\infty$ sehr genau heißt.

Term-Relationen

Fuzzy-Term-Relationen bezeichnet man als Fuzzy-Thesauren. Hier bedeutet diese Relation eine Fuzzy-Relation auf einer Fuzzy-Menge, die die Interpretation von einem Fuzzy-Graph hat. Formal wird angenommen: $T = {t_{1}, t_{2}, \dots, t_{m}}$ ist eine Menge von Termen und $D = {d_{1}, d_{2}, \dots, d_{n}}$ eine Menge von Dokumenten. Eine (allgemeine) Term-Relation wird definiert durch eine Fuzzy-Relation auf $T \cup D : R (x, y), x, y \in T \cup D$ . (Hier werden Terme und Dokumente in eine gesamte Menge vereinigt, obwohl man es Term-Relation nennt.) Drei Typen der Relationen sind einbezogen:

Eine Relation zwischen zwei Termen, $R (t, t^{'}), t, t^{'} \in T$ ,
Eine Relation zwischen zwei Dokumenten, $R (d, d^{'}), d, d^{'} \in D$ ,
Eine Relation zwischen einem Term und einem Dokument: $R (t, d)$ oder $R (d, t), t \in T, d \in D$ .

Die untengenannten Probleme in Term-Relationen werden dann diskutiert:

konkrete Beispiele für Term-Relationen,
Methode von Beschaffung und Bildung der Term-Relationen,
Methode von Verwendung der Term-Relationen in Information Retrieval.

Beispiele für Term-Relationen

Die Thesauren und ihre Fuzzy-Versionen sind typische Beispiele für Term-Relationen, wobei die Fuzzy-Relation $R$ nicht auf $T \cup D$ , sondern auf $T$ definiert wird. Verschiedene Typen von Fuzzy-Thesauren werden berücksichtigt. Zum Beispiel sieht Reisinger Fuzzy-Äquivalenz und Fuzzy-ordnende Relationen als natürliche Generalisationen von scharf kategorischen und hierarchischen Relationen an.^[2] Tahani erwähnt auch partielle Fuzzy-Ordnung.^[3] Redecki schlägt die Verwendung von einer Fuzzy-Äquivalenz-Relation zusammen mit einer Teilmenge der elementaren Terme und einer Termgeneralisationsrelation vor.^[4]

In der Forschung von Fuzzy-Thesauren werden symmetrische und unsymmetrische Fuzzy-Relationen sowie Fuzzy-Transitivität beachtet, deren Annahme jedoch zu einem Problem führt, weil man in Realität keine Fuzzy-Transitivität direkt finden kann. Dieses Problem ist durch die Berücksichtigung von Fuzzy-Graphen (ungerichtete Graphen) und Digraphen^[5] zu lösen. Angegeben ist eine Fuzzy-Relation $R$ , die nicht transitiv sein muss. Diese Relation lässt sich durch einen Fuzzy-Digraph repräsentieren, und ein „transitive closure“ wird überdacht, $R^{*} = R \cup R_{2} \cup \dots \cup R_{k} \cup \dots$ ( $R^{k} = R_{k - 1} \circ R$ , wobei $\circ$ die $\max$ - $\min$ -Komposition impliziert). $R^{*}$ bedeutet den Grad von Erreichbarkeit auf dem Digraph, und zwar ist $R * (x, y)$ der $\max$ -Wert von $α$ -Schnitt, wobei $x$ auf dem scharfen Digraphen von $y$ aus erreichbar ist.

Die obengenannten Operationen und Eigenschaften von Fuzzy-Relationen werden hier zusammengefasst:

Angegeben sind zwei Fuzzy-Relationen $R$ und $S$ , die auf $T$ definiert werden. Die $\max$ - $\min$ -Komposition: $(R \circ S) (x, z) = \max_{y \in T} \min [R (x, y), S (y, z)]$ .
Eine Relation R auf einer Menge T wird bezeichnet als
1. reflexiv, wenn für alle $x$ , $x \in T$ , $R (x, x) = 1$ ,
2. symmetrisch, wenn für alle $x$ und $y$ , $x, y \in T$ , $R (x, y) = R (y, x)$ ,
3. transitiv, wenn für alle $x$ und $y$ , $x, y \in T$ , $R (x, y) ≦ \max_{z \in T} \min [R (x, z), R (z, y)]$ .

Konstruktion der Term-Relationen

Verschiedene Forschungen behandeln unter unterschiedlichen Annahmen die Methoden von automatischer Konstruktion der Fuzzy-Relation von Termen oder von Dokumenten. Eine typische Methode dafür ist die Verwendung von Dokument-Term-Matrix $A = (a_{i j})$ , wobei $a_{i j}$ das Gewicht von Term $t_{j}$ in dem Dokument $d_{i}$ darstellt. Hier wird angenommen: $γ_{j} = \sum_{i} a_{i j} / d_{i}$ ist die Fuzzy-Menge, die dem Term $t_{j}$ entspricht. Eine symmetrische Relation $R_{s} (t_{j}, t_{k})$ und eine unsymmetrische Relation $R_{n} (t_{j}, t_{k})$ sind definiert durch

R_{s} (t_{j}, t_{k}) = | γ_{j} \cap γ_{k} | / | γ_{j} \cap γ_{k} |

,

R_{n} (t_{j}, t_{k}) = | γ_{j} \cap γ_{k} | / | γ_{j} |

,

wobei $| γ_{j} | = a_{1 j} + a_{2 j} + \dots + a_{n j}$ die $\sum$ -Summe ist. Diese Methode basiert auf der Annahme, dass die Bedeutung von den beiden Termen auch ähnlich ist, wenn die zwei Patterns von $γ_{j}$ und $γ_{k}$ ähnlich sind. Die Annahme von $R_{n} (t_{j}, t_{k})$ ist, dass $γ_{j}$ eine engere Bedeutung als $γ_{k}$ hat, wenn $γ_{j}$ der $γ_{k}$ inklusive ist.

Verwendung von Term-Relationen in den reellen Zahlen

Es gibt zwei Basismethoden von Verwendung der Term-Relationen in Information Retrieval. Wenn eine Term-Relation als ein Netzwerk ermöglicht wird, in dem die Dokumente Terminalknoten sind und eine Abfrage ein Originalknoten ist, wird das Retrieval durch die Verfolgung vom Netzwerk durchgeführt. Andererseits, wenn eine Term-Relation $R$ auf $T$ zusammen mit einer Fuzzy-Relation $F (d, t)$ und einem Fuzzy-Abfrage-Vektor $q = \sum_{j} \frac{w_{j}}{t_{j}}$ angegeben wird, ist eine einfache Standardmethode für Retrieval der Dokumente die Kalkulation von einer Fuzzy-Menge $δ = F \circ R \circ q$ durch die Anwendung von MAX-MIN-Komposition der Fuzzy-Relationen.^[6]

Literatur

Joon Ho Lee: Properties of extended Boolean models in information retrieval. In: W. B. Croft, C. J. van Rijsbergen: SIGIR 1994. 1994, S. 182–190.
Sadaaki Miyamoto: Two approaches for information retrieval through fuzzy associations. In: IEEE Transactions on Systems, Man, and Cybernetics. Band 19, Nr. 1, 1989, S. 123–130.
Sadaaki Miyamoto: Fuzzy Sets in Information Retrieval and Cluster Analysis. Kluwer, Dordrecht 1990, ISBN 0-7923-0721-6.
Sadaaki Miyamoto: Information Retrieval. In: Enrique H. Ruspini, Piero P. Bonissone, Witold Pedrycz (Hrsg.): Handbook of fuzzy computation. Institute of Physics Publ., Bristol 1998, S. F.4.2.
C. P. Paice: Soft evaluation of boolean search queries in information retrieval systems. In: Information Technology: Research and Development. Band 3, Nr. 1, 1984, S. 33–42.
Jiří Panyr: Die Theorie der Fuzzy-Mengen und Information-Retrieval-Systeme. In: Nachrichten für Dokumentation. Band 37, 1986, S. 163–168.
G. Salton, E. A. Fox, H. Wu: Extended boolean information retrieval. In: Communication of the ACM. Band 26, Nr. 11, 1983, S. 1022–1036.
W. G. Waller, D. H. Kraft: A mathematical Model for weighted Boolean retrieval systems. In: Information Processing and Management. Band 15, 1979, S. 235–245.

Quellen

↑ Salton u. a., 1983.
↑ Reisinger, 1974.
↑ Tahani, 1976.
↑ Redecki, 1976.
↑ Miyamoto, 1990b, S. 30.
↑ Miyamoto, 1990b, S. 195.

[1] Salton u. a., 1983.

[2] Reisinger, 1974.

[3] Tahani, 1976.

[4] Redecki, 1976.

[5] Miyamoto, 1990b, S. 30.

[6] Miyamoto, 1990b, S. 195.

[1]

[2]

[3]

[4]

[5]

[6]

Fuzzy Retrieval: Unterschied zwischen den Versionen

Aktuelle Version vom 16. Oktober 2024, 11:09 Uhr

Inhaltsverzeichnis

Das Fuzzy-IR-Modell

Erweiterte Fuzzy-IR-Modelle

Das Waller-Kraft-Modell

Das Paice-Modell

Vergleich

Die Einführung des Termgewichtes in die Abfrage

Fuzzy-IR-Modell mit Abfrage-Gewichten

Term-Relationen

Beispiele für Term-Relationen

Konstruktion der Term-Relationen

Verwendung von Term-Relationen in den reellen Zahlen

Literatur

Quellen

Navigationsmenü

Fuzzy Retrieval: Unterschied zwischen den Versionen

Aktuelle Version vom 16. Oktober 2024, 11:09 Uhr

Das Fuzzy-IR-Modell

Erweiterte Fuzzy-IR-Modelle

Das Waller-Kraft-Modell

Das Paice-Modell

Vergleich

Die Einführung des Termgewichtes in die Abfrage

Fuzzy-IR-Modell mit Abfrage-Gewichten

Term-Relationen

Beispiele für Term-Relationen

Konstruktion der Term-Relationen

Verwendung von Term-Relationen in den reellen Zahlen

Literatur

Quellen

Navigationsmenü

Suche