Die Implementierung des PageRank in die
Suchmaschine Google
Für die Implementierung des PageRank ist von
zentraler Bedeutung, auf welche Art und Weise der PageRank in die
generelle Bewertung von Webseiten durch die Suchmaschine Google
einfließt. Das Verfahren wurde von Lawrence Page und Sergey
Brin mehrfach in ihren Veröffentlichungen beschrieben.
Ursprünglich basierte die Seitenbewertung durch Google auf
drei Faktoren:
 |
Seitenspezifische Faktoren |
 |
Ankertext eingehender Links |
 |
PageRank |
Zu den seitenspezifischen
Faktoren zählen neben den
konkreten Textinhalten etwa auch der Inhalt des Title-Tags und die URL
einer Seite. Es ist mehr als wahrscheinlich, dass seit der
Veröffentlichung dieser Punkte weitere Faktoren hinzugekommen
sind. Dies soll an dieser Stelle jedoch nicht interessieren.
Bei Suchanfragen wird aus
den seitenspezifischen Faktoren und
den Ankertexten eingehender Links für den Suchbegriff eine
nach Position und Grad der Hervorhebung gewichteter IR-Wert berechnet.
Die Bewertung für die Relevanz einer Webseite für
eine konkrete Suchanfrage wird nun mit dem PageRank als Indikator
für die ganz allgemeine Bedeutsamkeit der Webseite kombiniert.
Dieses Kombinieren erfolgt in multiplikativer Form. Dass hier kein
additives Verfahren eingesetzt wird ist unmittelbar einleuchtend, da
ansonsten Seiten mit einem sehr hohen PageRank auch auf Suchanfragen
hin gefunden werden könnten, obwohl sie in keinerlei
Zusammenhang zum gesuchten Begriff stehen.
Insbesondere bei aus mehreren
Begriffen bestehenden
Suchanfragen zeigt sich ein deutlich größerer
Einfluss der inhaltsspezifischen Bewertungskomponenten. Der Einfluss
des PageRank hingegen wird eher bei unspezifischen, aus lediglich einem
Suchbegriff bestehenden Anfragen deutlich. Gerade für
Mehr-Begriffs-Anfragen ist es möglich, mit den klassischen
Mitteln der Suchmaschinen-Optimierung Listungen vor Seiten zu erlangen,
die einen weitaus höheren PageRank-Wert inne haben.
Bei der Optimierung für Suchbegriffe, für
die in den Suchmaschinen ein großer Wettbewerb herrscht, ist
ein hoher PageRank-Wert unerlässlich für eine hohe
Suchmaschinen-Position, selbst wenn die Seite selbst den klassischen
Kriterien der Suchmaschinen-Optimierung folgt. Dies liegt darin
begründet, dass die Wertung des zusätzlichen
Vorkommens eines Suchbegriffs innerhalb eines Dokuments sowie in den
Ankertexten von eingehenden Links mit der Häufigkeit des
Vorkommens abnimmt, um Spam durch oftmalige Keyword-Wiederholungen zu
vermeiden. Damit sind die Möglichkeiten zur Seitenoptimierung
im klassischen Sinne beschränkt, und bei hohem Wettbewerb in
Suchmaschinen für einen Suchbegriff wird der PageRank zum
ausschlaggenden Faktor.
Die PageRank Anzeige der Google Toolbar
Einen großen Bekanntheitsgrad erlangte der PageRank
durch seine Anzeige in der Google Toolbar. Die Google Toolbar ist ein
Browser-Plug-In für den Microsoft Internet Explorer, das von
der Google Website herunter geladen werden kann und zahlreiche
Erleichterungen für die Google-Suche bereithält.
Die Google Toolbar zeigt
den PageRank einer Seite auf einer
Skala von 0 bis 10 an. Zunächst ist der PageRank an der Breite
des grünen Balkens in der Anzeige ersichtlich. Fährt
der Benutzer mit der Maus über die Anzeige, gibt die Toolbar
darüberhinaus den Wert des Toolbar-PageRank an. Vorsicht: Die
PageRank-Anzeige zählt zu den "Advanced Features" der Google
Toolbar. Sobald diese "Advanced Features" aktiviert sind, sammelt
Google über die Toolbar Daten über das
Benutzerverhalten. Außerdem führt die Toolbar
selbstständig Updates durch, ohne dass der Benutzer
über das Herunterladen der neuen Version informiert wird. Dies
bedeutet letztlich, dass Google Zugriff auf die Festplatte des
Benutzers hat.
Der tatsächliche PageRank, der für eine
Seite theoretisch maximal einen Wert von dN+(1-d) annehmen kann, wobei
N die Anzahl aller Seiten des Webs ist und d üblicherweise auf
0.85 gesetzt wird, muss für die Anzeige in der Google Toolbar
skaliert werden. Es wird im Allgemeinen davon ausgegangen, dass die
Skalierung nicht linear sondern logarithmisch erfolgt. Bei einem
Dämpfungsfaktor von 0.85 und einem damit verbundenen minimalen
PageRank von 0.15 sowie einer angenommenen logarithmischen Basis von 6
ergäbe sich das folgende Bild für die Skalierung:
| Toolbar-PR |
Tatsächlicher
PR |
|
|
| 0/10 |
0.15 |
- |
0.9 |
| 1/10 |
0.9 |
- |
5.4 |
| 2/10 |
5.4 |
- |
32.4 |
| 3/10 |
32.4 |
- |
194.4 |
| 4/10 |
194.4 |
- |
1,166.4 |
| 5/10 |
1,166.4 |
- |
6,998.4 |
| 6/10 |
6,998.4 |
- |
41,990.4 |
| 7/10 |
41,990.4 |
- |
251,942.4 |
| 8/10 |
251,942.4 |
- |
1,511,654.4 |
| 9/10 |
1,511,654.4 |
- |
9,069,926.4 |
| 10/10 |
9,069,926.4 |
- |
0.85 × N +
0.15 |
Ob tatsächlich eine mathematisch strikte
logarithmische Skalierung erfolgt ist natürlich ungewiss.
Wahrscheinlich erfolgt eine manuelle Skalierung, die einem
logarithmischen Schema folgt, damit Google die volle Kontrolle
darüber behält, wie viele Seiten einen bestimmten
Toolbar-PageRank inne haben. Diesem Schema dürfte allerdings
eine logarithmische Basis von 6 bis 7 zu Grunde liegen, was sich etwa
ansatzweise aus der Anzahl der von Google angezeigten eingehenden Links
mit einem Toolbar-PageRank größer 4 für
Seiten mit einem sehr hohen Toolbar-Pagerank herleiten lässt.
Die Datenkommunikation der Toolbar
Auch Webmaster, die aufgrund
von Sicherheitsbedenken die Google Toolbar oder auch den Internet Explorer
nicht dauerhaft nutzen
möchten, haben eine Möglichkeit zum Einblick in die
PageRank-Werte ihrer Seiten. Google übermittelt den PageRank
in einfachen Textdateien an die Toolbar. Früher geschah dies
per XML. Der Wechsel zu Textdateien fand im August 2002 statt.
Die PageRank-Textdateien
können direkt von der Domain
www.google.com abgerufen werden. In ihrer Grundform sehen die URLs der
Dateien folgendermaßen aus (ohne Zeilenumbrüche):
http://www.google.com/search?client=navclient-auto&
ch=0123456789&features=Rank&q=info:http://www.domain.com/
Die PageRank-Dateien bestehen aus einer Zeile. Der
PageRank-Wert ist die letzte Ziffer in dieser Zeile.
Die oben in der URL dargestellten
Parameter sind
unerlässlich für die Anzeige der PageRank-Dateien im
Browser. So identifiziert sich mit dem Wert "navclient-auto"
für den Parameter "client" die Toolbar; mit dem Parameter "q"
wird die abgefragte URL übermittelt. Der Wert "Rank"
für den Parameter "features" legt fest, dass die
PageRank-Dateien abgerufen werden. Wird dieser Parameter weggelassen,
werden auch weiterhin XML-Dateien übermittelt. Der Parameter
"ch" wiederum übergibt eine Prüfsumme für
die URL, wobei sich diese Prüfsumme im Zeitablauf für
einzelne URLs lediglich bei Updates der Toolbar ändern kann.
Um die Prüfsummen einzelner URLs herauszufinden ist
es damit erforderlich, die Toolbar zumindest einmal zu installieren.
Hierbei wird dann vielerorts der Einsatz von Packet Sniffern, lokalen
Proxies und ähnlichem empfohlen, um die Kommunikation zwischen
Toolbar und Google aufzuzeichnen. Dies ist allerdings nicht zwingend
erforderlich, da die PageRank-Dateien vom Internet Explorer gecached
werden und somit die Prüfsummen im Ordner Temporary Internet
Files eingesehen werden können. Die PageRank-Dateien
können hiermit dann auch z.B. in anderen Browsern als dem
Internet Explorer angezeigt werden, ohne dass Googles 36-Jahres-Cookies
akzeptiert werden müssen.
Da die PageRank-Dateien
im Browser-Cache gespeichert werden und somit offen einsehbar sind, und sofern
eine Abfrage nicht
automatisiert erfolgt, sollte dies keine Verletzung von Googles
Dienstleistungsbedingungen darstellen. Es ist allerdings Vorsicht
geboten. Die Toolbar übermittelt einen eigenen User-Agent an
Google. Es ist:
Mozilla/4.0 (compatible; GoogleToolbar 1.1.60-deleon; OS SE
4.10)
Hierbei ist 1.1.60-deleon
eine Toolbar-Version, die sich
natürlich ändern kann, und OS das Betriebssystem des
jeweils eingesetzten Rechners. Google kann also nachprüfen, ob
eine direkte Anfrage über den Browser erfolgt, sofern kein
Proxy zwischengeschaltet und der User-Agent entsprechend modifiziert
wird.
Beim Blick in den Cache
des IE wird man in der Regel feststellen, dass die PageRank-Dateien nicht
von der Domain
www.google.com, sondern von IPs wie z.B. 216.239.33.102 abgerufen
werden. Ebenso enthalten die URLs häufig einen weiteren
Parameter "failedip" mit Werten wie z.B. "216.239.35.102;1111". Die IPs
sind jeweils einem der derzeit sieben sich im Einsatz befindlichen
Rechenzentren Googles zugeordnet. Wozu der Parameter "failedip"
tatsächlich genutzt wird, ist unklar. Hintergrund der
unmittelbaren Abfrage der PageRank-Dateien bei einzelnen IPs ist wohl
der Versuch, die PageRank-Anzeige insbesondere in den Zeiten des
"Google Dance" besser zu steuern.
Die PageRank Anzeige der Google Directory
Denjenigen, denen der Abruf
der PageRank-Dateien zu
kompliziert ist, bleibt schließlich mit der Google Directory
(directory.google.com) noch eine eingeschränkte
Möglichkeit, etwas über den PageRank ihrer Site zu
erfahren.
Bei der Google Directory
handelt es sich um einen Dump des Open Directory Projects (dmoz.org), der
neben den
Seiteneinträgen ähnlich der Google Toolbar den
skalierten PageRank für die in das ODP eingetragene Seite in
Balkenform anzeigt. Allerdings erfolgt die PageRank-Anzeige in der
Google-Directory auf einer Skala von 1 bis 7. Der exakte Wert wird
nicht angezeigt, kann aber über die zweigeteilte Balkengrafik
bzw. die Breite von deren Einzelgrafiken bestimmt werden, falls der
Betrachter sich beim einfachen Augenschein unsicher ist.
Durch den Vergleich des
Toolbar-PageRanks mit dem
Directory-PageRank kann vom tatsächlichem PageRank von Seiten,
die in das ODP eingetragen sind, ein etwas genauerer Eindruck gewonnen
werden. Dieser Zusammenhang wurde zuerst von Chris Raimondi
(www.searchnerd.com/pagerank) aufgezeigt.

Insbesondere für Seiten mit einem Toolbar-PageRank
von 5 oder 6 ergibt sich hier die Möglichkeit der
Einschätzung, ob sich die Seite eher am unteren oder am oberen
Ende eines Bereichs der Toolbar-Skalierung befindet. Es sei an dieser
Stelle angemerkt, dass für die Darstellung des Vergleichs der
beiden PageRank-Anzeigen der Toolbar-PageRank von 0 nicht
berücksichtigt wurde. Dass dies sinnvoll ist, kann anhand von
Seiten mit einem Directory-PageRank von 3 nachvollzogen werden. Hier
ist allerdings zu berücksichtigen, dass zur
Überprüfung eine Seite der Google Directory mit einem
Toolbar-PageRank von maximal 4 ausgewählt werden sollte, da
sich sonst in der Regel keine von dort verlinkten Seiten mit einem
Toolbar-PageRank von 3 finden lassen.
PageRank
und Google sind geschützte Marken der Google Inc., Mountain
View CA, USA. Das PageRank Verfahren unterliegt dem US Patent
6,285,999.
Copyright by pr.efactory.de
|