Der Effekt ausgehender Links
Da das PageRank-Verfahren
die Link-Struktur des gesamten Webs abbildet, ist es unausweichlich, dass
wenn eingehende Links einen
Einfluss auf den PageRank haben, das gleiche auch für
ausgehende Links gilt. Zur Darstellung der Effekte ausgehender Links
soll wieder ein kleines Beispiel dienen.
Betrachtet wird ein Web
aus zwei Websites, die jeweils zwei Seiten beinhalten. Die eine Site besteht
aus den Seiten A und B, die
andere aus den Seiten C und D. Die beiden Seiten einer jeden Site
verlinken sich jeweils gegeneinander. Es wird unmittelbar deutlich,
dass jede der Seiten einen ursprünglichen PageRank von 1 inne
hat. Nun wird Seite A ein externer Link auf Seite C
hinzugefügt. Für den PageRank der einzelnen Seiten
ergeben sich bei einem angenommenen Dämpfungsfaktor d von 0.75
die folgenden Gleichungen:
PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR(C) = 0.25 + 0.75 PR(D) + 0.375 PR(A)
PR(D) = 0.25 + 0.75 PR(C)
Die Lösung dieses
Gleichungssystems ergibt die
folgenden Werte:
PR(A) = 14/23
PR(B) = 11/23
und somit einen aufsummierten
PageRank von 25/23 für
die erste Site,
PR(C) = 35/23
PR(D) = 32/23
und damit einen aufsummierten
PageRank von 67/23 für
die zweite Site. Der aufsummierte PageRank beider Sites in
Höhe von 92/23 = 4 bleibt also erhalten. Das
Hinzufügen von Links hat also keinen Einfluss auf den
aufsummierten PageRank des Webs. Ferner ist damit der Gewinn der
verlinkten Site genauso groß wie der Verlust der anderen.
Der
tatsächliche
Effekt ausgehender
Links
Wie bereits gezeigt, ist
der Gewinn eines geschlossenen
Systems auf das ein zusätzlicher Link gesetzt wird, gegeben
durch
(d / (1-d)) × (PR(X)
/ C(X)),
wobei X die verlinkende
Seite, PR(X) deren PageRank und C(X) die Anzahl der ausgehenden Links von
Seite X ist. Dieser Wert
beschreibt damit auch den PageRank-Verlust, der einem vormals
geschlossenen System daraus entsteht, dass einer Seite X innerhalb
dieses Systems ein ausgehender Link hinzugefügt wird.
Bedingung für die angegebene Formel ist, dass die
verlinkte Site nicht etwa direkt wieder auf die verlinkende Site
zurückverlinkt, da die verlinkende Site wieder einen Teil des
verlorenen PageRanks zurückgewinnen würde. Solange
eine Rückverlinkung sich über eine gar nicht so
große Anzahl von Webseiten erstreckt, ist dieser Effekt
jedoch durch die Wirkungsweise des Dämpfungsfaktors zu
vernachlässigen. Ferner Bedingung für die
Gültigkeit der Formel ist, dass die verlinkende Site nicht
bereits vorher ausgehende Links besitzt. Sollte dies jedoch der Fall
sein, vermindert sich die Höhe des Verlustes der betrachteten
Site, und gleichzeitig haben die bereits verlinkten Webseiten einen
entsprechenden Verminderung des PageRank hinzunehmen.
Selbst wenn für eine tatsächlich
existierende Website die PageRank-Werte der einzelnen Webseiten bekannt
wären, könnte allerdings dennoch nicht ohne weiteres
im Vorhinein ermittelt werden, wie sehr das Hinzufügen eines
externen Links den PageRank der einzelnen Seiten vermindert, da die
oben genannten Formel den Status nach der Verlinkung betrachtet.
Intuitive
Begründung für
den Effekt ausgehender Links
Intuitiv lässt sich der Verlust von PageRank
für die eigenen Seiten damit erklären, dass der
Zufalls-Surfer aus dem Random Surfer Modell durch das
Hinzufügen eines externen Links mit einer geringeren
Wahrscheinlichkeit einen Link auf eine der internen Seiten verfolgt.
Damit sinkt in der Folge auch die Wahrscheinlichkeit, mit der sich der
Surfer auf einer derjenigen Seiten aufhält, die wiederum auf
diejenige Seite verlinken, der der externe Link hinzugefügt
wurde, womit auch deren PageRank sinken muss.
Es bleibt letztlich festzuhalten,
dass ausgehende externe Links den aufsummierten PageRank aller Webseiten
einer Website und
gegebenenfalls auch den PageRank jeder einzelnen Seite einer Site
vermindern. Da jedoch die Verlinkung zwischen Websites gerade die
Grundlage des PageRank-Verfahrens darstellt und für sein
Funktionieren unabdingbar ist, besteht durchaus die
Möglichkeit, dass ausgehende Links an einer anderen Stelle
innerhalb der Bewertung von Webseiten durch die Suchmaschine Google
positiven Einfluss nehmen. Schließlich machen gerade auch
relevante ausgehende Links die Qualität einer Website aus, und
Webmaster, die Links auf andere Websites setzen, beziehen
gewissermaßen deren Content in das eigene Web-Angebot mit ein.
Dangling Links
Ein nicht ganz unwichtiger
Aspekt ausgehender Links ist das Fehlen ausgehender Links. Sobald einzelne
Webseiten keine ausgehenden
Links aufweisen, versickert der PageRank gewissermaßen an
diesen Stellen. Lawrence Page und Sergey Brin bezeichnen Verweise auf
derartige Seiten als "Dangling Links".
Die Auswirkungen von Dangling
Links sollen anhand eines kleinen Beispiels veranschaulicht werden. Wir betrachten
eine Website
die aus aus den drei Seiten A, B und C besteht. Die Seiten A und B
verlinken sich gegenseitig. Seite A verlinkt zudem auf Seite C, die
ihrerseits jedoch keine ausgehenden Links aufweist. Für den
PageRank der einzelnen Seiten ergeben sich bei einem angenommenen
Dämpfungsfaktor d von 0.75 die folgenden Gleichungen:
PR(A) = 0.25 + 0.75 PR(B)
PR(B) = 0.25 + 0.375 PR(A)
PR(C) = 0.25 + 0.375 PR(A)
Die Lösung dieses
Gleichungssystems ergibt die
folgenden PageRank-Werte:
PR(A) = 14/23
PR(B) = 11/23
PR(C) = 11/23
Damit beträgt der aufaddierte PageRank aller Seiten
36/23, also nur etwas mehr als die Hälfte dessen, was zu
erwarten gewesen wäre, wenn Seite C auf eine der beiden Seiten
A oder B verlinkt hätte. Die Anzahl von Dangling Links ist
nach Angaben von Page und Brin nicht unbeträchtlich - und sei
es, weil zahlreiche verlinkte Seiten von Google nicht indexiert sind,
etwa weil die Indexierung per robots.txt verhindert wird. Hier ist
zusätzlich zu berücksichtigen, dass Google
mittlerweile auch andere Dokumenten-Typen als HTML wie zum Beispiel PDF
oder Word Dateien indexiert, die keine wirklichen ausgehenden Links
haben. Dangling Links könnten also nicht
unbeträchtliche Folgen für das PageRank-Verfahren
haben.

Um die negativen Effekte
von Dangling Links auszuschalten, werden diese Angaben von Page und Brin
zufolge vor der
PageRank-Berechnung aus der Datenbank unter Anpassung der jeweiligen
Anzahl von ausgehenden Links entfernt bis alle PageRank-Werte berechnet
sind. Bei der Entfernung von Dangling Links handelt es sich um einen
iterativen Vorgang, da das Entfernen wiederum neue Dangling Links
erzeugen kann, wie aus unserer einfachen Abbildung ersichtlich. Nachdem
die eigentliche PageRank-Berechnung abgeschlossen ist, wird auch den
Dangling Links PageRank - auf der Basis der PageRank-Werte der auf sie
verweisenden Seiten und unter Rückgriff auf den
PageRank-Algorithmus - zugewiesen. Dies erfordert ebenso viele
Iterationen wie bei der Entfernung der Dangling Links. Um bei unserer
Abbildung zu bleiben, könnte schließlich Seite C vor
Seite B bearbeitet werden. Seite B weist dann im ersten
Bearbeitungsdurchlauf bei der Bearbeitung von Seite C noch keinen
PageRank auf, womit Seite C wiederum ein PageRank von 0 zugewiesen
würde. Erst anschließend erhält Seite B
ihren PageRank und im zweiten Bearbeitungsschritt würde Seite
C einen tatsächlichen PageRank zugewiesen bekommen.
Für unser ursprüngliches Beispiel hat das
Entfernen von Seite C aus der Datenbank zur Folge, dass die Seiten A
und B nach Abschluss der Berechnungen jeweils einen PageRank von 1
erhalten. Seite C wird dann im Anschluss ein PageRank in Höhe
von 0.25 + 0.375 PR(A) = 0.625 zugewiesen. Damit enspricht der
aufaddierte PageRank zwar nicht der Anzahl der Seiten, doch zumindest
diejenigen Seiten mit ausgehenden Links nehmen keinen Schaden durch
Dangling Links.
Durch die Eliminierung
von Dangling Links haben diese also keinen negativen Einfluss auf den PageRank
der übrigen Seiten.
Und wie bereits erwähnt, sind Verweise auf Dokumententypen,
die keine ausgehenden Links aufweisen können,
grundsätzlich Dangling Links. Damit wird auch unmittelbar
deutlich, dass etwa Links auf PDF-Dokumente den PageRank einer darauf
verlinkenden Seite bzw. Site nicht reduzieren können.
PDF-Dokumente können also ein sehr gutes Instrument der
Suchmaschinenoptimierung für Google sein.
PageRank
und Google sind geschützte Marken der Google Inc., Mountain
View CA, USA. Das PageRank Verfahren unterliegt dem US Patent
6,285,999.
Copyright by pr.efactory.de
|