Im
Verlauf der letzten Jahre hat sich Google weltweit zur bedeutendsten
Suchmaschine entwickelt. Maßgebend verantworlich hierfür
war neben einer hohen Performance und einer großen Benutzerfreundlichkeit
vor allem die anderen Suchmaschinen teilweise weit überlegene
Qualität der Suchergebnisse. Diese Qualität der Suchergebnisse
beruht ganz wesentlich auf dem PageRank-Verfahren.
An dieser Stelle soll ein möglichst breiter Überblick über
alle Aspekte des PageRank-Verfahrens wiedergegeben werden. Unser Überblick
stützt sich dabei im Kern auf Veröffentlichungen der Google-Gründer
Lawrence Page und Sergey Brin aus ihrer Zeit als Graduiertenstudenten
an der Stanford University.
Vielerorts wird angeführt, dass seit den Forschungsarbeiten
am PageRank-Verfahren vor allem angesichts der Dynamik des Internets
zu viel Zeit vergangen ist, als dass die veröffentlichten Dokumente
immer noch für die Bewertungsmethodik der Suchmaschine Google
maßgebend sind. Es soll auch nicht bezweifelt werden, dass
im Verlauf der letzten Jahre mit großer Wahrscheinlichkeit
zahlreiche Änderungen, Anpassungen und Modifikationen am ursprünglichen
PageRank-Algorithmus stattgefunden haben. Allerdings war gerade das
PageRank-Verfahren ein wichtiger Faktor für den Erfolg der
Suchmaschine Google, womit zumindest das Konzept des PageRank-Verfahrens
immer
noch grundlegend sein sollte.
Das PageRank-Konzept
Im Zuge der Entwicklung des World Wide Webs wurden
verschiedene Verfahren zur Bewertung von Webseiten mit dem Ziel
der Relevanzbeurteilung
durch Suchmaschinen entwickelt. Ein aus unmittelbar einleuchtenden
Gründen auch heute immer noch von praktisch allen Suchmaschinen
genutzter Maßstab ist das Vorkommen eines Suchbegriffs in den
Inhalten einer Webseite. Dieses Vorkommen wird nach den verschiedensten
Kriterien wie etwa der relativen Häufigkeit des Vorkommens
(der sog. Keyword-Dichte), den Stellen des Vorkommens des Suchbegriffs
oder auch der Exponiertheit des Suchbegriffs im Dokument gewichtet.
Aus der Absicht, Suchmaschinen resistent gegen
Webseiten zu machen, die auf der Basis von Analysen der inhaltsspezifischen
Bewertungskriterien
generiert wurden (Doorway Pages), entstand das Konzept der Link-Popularität.
Dabei fließt die Anzahl der eingehenden Links für ein
Dokument als ein grundsätzliches Kriterium für die Bedeutung
einer Webseite in die Relevanzbeurteilung ein. Diesem Ansatz liegt
zu Grunde, dass ein Dokument um so wichtiger ist, je häufiger
es von anderen verlinkt wird. Hierdurch wird weitestgehend verhindert,
dass automatisch generierte "suchmaschinenoptimierte" Webseiten
ohne jeglich Einbindung in das WWW oben in den Suchmaschinenergebnissen
erscheinen. Es zeigte sich allerdings, dass auch das Konzept der
Link-Popularität schnell von Webmastern antizipiert werden konnte,
indem sie von ebenso unbedeutenden, automatisch generierten Seiten
eingehende Links für Doorway Pages schufen.
Im Gegensatz zum Konzept der Link-Popularität nutzt das PageRank-Konzept
nicht einfach die absolute Anzahl eingehender Links für die
Beurteilung der Bedeutung einer Webseite. Die Argumentation der Google-Gründer
gegen das Konzept der einfachen Link-Popularität war, dass ein
Dokument zwar bedeutsam ist, wenn es von vielen anderen verlinkt
wird, nicht jedes verlinkende Dokument ist jedoch gleichwertig. Vielmehr
sollte einem Dokument - völlig unabhängig von seinen
Inhalten - ein hoher Rang zugewiesen werden, wenn es von anderen
bedeutenden
Dokumenten verlinkt wird.
Die Bedeutsamkeit eines Dokuments bestimmt sich
im Rahmen des PageRank-Konzepts also aus der Bedeutsamkeit der
darauf verlinkenden
Dokumente. Deren
Rang wiederum bestimmt sich ebenfalls aus dem Rang verlinkender
Dokumente. Die Bedeutsamkeit eines Dokuments definiert sich stets
rekursiv aus
der Bedeutsamkeit anderer Dokumente. Da - wenn auch über viele
hintereinanderfolgende Links hinweg - der Rang eines jeden Dokuments
eine Auswirkung auf den Rang eines jeden anderen hat, beruht das
PageRank-Konzept letztlich auf der Linkstruktur des gesamten Webs.
Obwohl diese ganzheitliche Betrachtung des WWW es nicht vermuten
lässt, gelang es Page und Brin das PageRank-Konzept mittels
eines relativ trivialen Algorithmus umzusetzen.