Google-Matrix

Aus testwiki
Version vom 25. November 2024, 07:08 Uhr von imported>Mantelmoewe (growthexperiments-addlink-summary-summary:3|0|0)
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Zur Navigation springen Zur Suche springen
Ausschnitt aus der Google-Matrix der englischsprachigen Wikipedia-Artikel (2009)

Die Google-Matrix ist eine quadratische Matrix, die bei der Konstruktion des PageRank-Algorithmus entsteht. Da sie oftmals sehr groß ist (mit vielen Millionen Zeilen und Spalten), sind die numerischen und algebraischen Eigenschaften dieser Matrix für die schnelle und exakte Bestimmbarkeit der PageRanks von großer Bedeutung.

Definition

Die normierte Google-Matrix eines Netzwerks oder gerichteten Graphen mit n Knoten ist die reelle n×n-Matrix:

P:=d(L+1n𝐰𝟏T)+(1d)1n𝟏𝟏T

Die einzelnen Komponenten der Google-Matrix sind dabei folgendermaßen definiert:

  • Die Linkmatrix L ist die zeilenweise auf 1 normierte Adjazenzmatrix A=(aij) des untersuchten Graphen:
lij:={1cifallsaij=10sonst
wobei ci der Ausgangsgrad des Knotens i ist, also die Anzahl der Kanten, die den Knoten i verlassen.
  • Der Vektor 𝐰 ist komponentenweise definiert als
wi={1fallsci=00sonst
Er enthält also genau dann eine Eins, wenn der Ausgangsgrad einer Seite bzw. eines Knotens null ist. Diese Knoten werden auch dangling nodes genannt. In der Literatur gibt es verschiedene Methoden, diese Knoten zu behandeln,[1] die hier behandelte ist die häufigste.

Eigenschaften

PageRank

Zur Berechnung der PageRanks ist man insbesondere an der Existenz und Vielfachheit von Linkseigenvektoren der Matrix P interessiert. Diese entsprechen genau den gewöhnlichen Eigenvektoren der Matrix PT zum Eigenwert 1. Interpretiert man das Eigenwertproblem

PT𝐱=𝐱

als Berechnung der stationären Verteilung einer Markow-Kette, so ist der Vektor x ein stochastischer Vektor bestehend aus den PageRanks. Damit reduziert sich das Eigenvektorproblem zu dem linearen Gleichungssystem

(Id(L+1n𝐰𝟏T)T)x=(1d)1n𝟏.

Um dieses lineare Gleichungssystem effizient lösen zu können, stellt sich die Frage nach der Regularität der Matrix und ihrer Konditionszahl.

Normen

Sowohl die Matrix L als auch die Matrix 1n𝐰𝟏T sind im Allgemeinen nur substochastisch. Addiert man beide, so erhält man eine zeilenstochastische Matrix, da sich die Nichtnullzeilen der Matrizen ergänzen. Da auch 1n𝟏𝟏T zeilenstochastisch ist (streng genommen sogar doppelt-stochastisch) und durch den Dämpfungsparameter nur Konvexkombinationen gebildet werden (bezüglich derer die stochastischen Matrizen abgeschlossen sind), ist die Google-Matrix ebenfalls eine zeilenstochastische Matrix. Damit gilt für die Zeilensummennorm der Google-Matrix

P=1

und damit auch für die Spaltensummennorm der Transponierten

PT1=1.

Eigenvektoren und Eigenwerte

Die Existenz eines Eigenvektors von PT zum Eigenwert 1 folgt direkt daraus, dass die Matrix eine stochastische Matrix ist. Dass 1 sogar betragsgrößter positiver Eigenwert ist, zu dem ein einfacher strikt positiver Eigenvektor existiert, folgt aus dem Satz von Perron-Frobenius, da PT>0 gilt. Wichtig ist hier, dass erst die Einführung des Dämpfungsparameters die Positivität der Matrix und damit die Lösbarkeit des Eigenwertproblems garantiert.

Des Weiteren lässt sich noch zeigen, dass |λi|d für alle anderen Eigenwerte gilt.[2] Die Separation der Eigenwerte wird also nur durch den Dämpfungsparameter bestimmt. Damit ist für viele der numerischen Verfahren zur Eigenwertberechnung, wie beispielsweise die Potenzmethode, eine gute Konvergenzgeschwindigkeit garantiert, so lange der Dämpfungsfaktor nicht zu nahe an 1 gewählt wird. Normalerweise gilt d0,85.

Regularität und Kondition

Da

d(L+1n𝐰𝟏T)T1=d<1

gilt, liefert die Neumann-Reihe die Invertierbarkeit der Matrix

K:=(Id(L+1n𝐰𝟏T)T).

Somit ist das Problem als lineares Gleichungssystem lösbar. Gleichzeitig gilt auch für die Norm der Inversen

K1111d

und damit für die Konditionszahl die Abschätzung

κ1=K1K111+d1d.

Somit ist nur die Wahl des Dämpfungsparameters für die Kondition verantwortlich und sollte wieder nicht zu nahe an 1 gewählt werden.

Numerische Berechnung des Eigenvektors

Der betragsgrößte Eigenvektor der Google-Matrix wird normalerweise mittels der Potenzmethode näherungsweise bestimmt. Dabei wird ausgehend von einer Startnäherung b0 in jedem Iterationsschritt das Matrix-Vektor-Produkt der Google-Matrix mit der aktuellen Näherung des Eigenvektors 𝐛k gebildet. In jedem Iterationsschritt ist demnach

PTbk=dLT𝐛k+d1n𝟏𝐰T𝐛k+(1d)1n𝟏

zu berechnen. Ist die Startnäherung ein stochastischer Vektor, dann ist auch jeder folgende Näherungsvektor stochastisch. Nachdem die Eigenwerte der Google-Matrix gut separiert sind, ist eine langsame Konvergenzgeschwindigkeit der Potenzmethode ausgeschlossen.

Bei der Berechnung kann die spezielle Struktur der Google-Matrix ausgenutzt werden. Die Linkmatrix LT ist in der Regel extrem dünn besetzt, das heißt fast alle ihre Einträge sind null. Dadurch kann sie zum einen sehr platzsparend gespeichert werden und zum anderen sehr effizient mit einem Vektor multipliziert werden. Auch der Vektor w ist in der Regel dünn besetzt, wodurch sich der Term 𝟏wTbk ebenfalls sehr schnell berechnen lässt.

Beispiel

Der im Beispiel behandelte gerichtete Graph

Betrachtet man als Beispiel den rechts stehenden gerichteten Graphen mit 8 Knoten, so sind die Knoten 5 und 6 dangling nodes. Dann ist die zeilenweise normierte Adjazenzmatrix

L=[001000000,500000,5000000,50,500000,500000,5000000000000000000000000100000010]

und der Vektor

w=[00001100]T.

Dann ist mit der obigen Konstruktion und einem Dämpfungsparameter von d=0,8

P=140[1133111111711111711111171711111711111715555555555555555111111133111111331]

Der Eigenvektor von PT zum Eigenwert 1 ist dann

x=(0,0675;0,0701;0,0934;0,0768;0,0768;0,0675;0,2825;0,2654)T.

Damit haben die Knoten 7 und 8 die höchsten PageRanks (0,2825 und 0,2654) und die Knoten 1 und 6 die niedrigsten (je 0,0675). Der betragszweite Eigenwert ist λ2=0,8, die obige Abschätzung ist also scharf. Des Weiteren ist die Konditionszahl

κ1=9=1+0,810,8,

auch diese Abschätzung ist also scharf.

Einzelnachweise

  1. Deeper Inside PageRank Amy N. Langville und Carl D. Meyer. Abgerufen am 30. August 2013.
  2. T.H. Haveliwala und S.D. Kamvar: The Second Eigenvalue of the Google Matrix. Technischer Report, Stanford University, 2003. Abgerufen am 30. August 2013.

Literatur