PR0 - Die PageRank 0 Bestrafung
Seit Ende des Jahres 2001
greift die Bestrafung von Websites
mit einem PageRank von 0 um sich. In einschlägigen
Suchmaschinenoptimierungs-Foren hat sich hierfür die Kurzform
PR0 eingebürgert und diese soll auch hier benutzt werden. PR0
ist dadurch gekennzeichnet, dass alle - oder zumindest viele - Seiten
einer Website in der Google Toolbar einen PageRank von 0 aufweisen,
obwohl diese mitunter qualitativ hochwertige eingehende Links aufweisen
können. Sie sind nicht vollkommen aus dem Index entfernt,
erscheinen aber in Suchergebnissen stets ganz unten und sind somit
praktisch nicht aufzufinden.

Einem PageRank von 0 muss
natürlich nicht immer eine
Bestrafung zu Grunde liegen. Vielen vermeintlich bestraften Seiten
mangelt es schlicht an eingehenden Links mit entsprechend hohem
PageRank. Wenn aber die Seiten einer Site, die vormals gut in den
Suchergebnissen platziert waren, plötzlich die
gefürchtete weiße PageRank-Anzeige aufweisen, und
sich hinsichtlich der eingehenden Links der Site nichts wesentliches
verändert hat, liegt nach herrschender Meinung eine Bestrafung
durch Google vor.
Über die tatsächlichen Ursachen des PR0 kann
natürlich nur spekuliert werden. Da seitens Google
mittlerweile nicht mehr über technische Details und
grundlegende Algorithmen publiziert wird, sind schließlich
erforderliche Hintergrundinformationen kaum oder gar nicht
verfügbar. Nichtsdestotrotz soll wegen der tiefgreifenden
Auswirkungen von PR0 ein theoretischer Ansatz hierfür
geliefert werden.
Hintergründe
des PR0
Suchmaschinen-Spam ist
eines der großen Probleme mit
denen Suchmaschinen-Betreiber seit jeher zu kämpfen haben. Die
übliche Vorgehensweise gegen Spam war immer, dass - sobald
Spam identifiziert wird - die entsprechenden Domains oder auch gleich
IP-Adressen in der Regel für unbestimmte Zeit aus dem Index
verbannt werden.
Ein derartiges manuelles
Entfernen von Websites aus dem Index ist immer mit einem hohen Personalaufwand
verbunden. Dies
läuft der stets von Google angestrebten hohen Skalierbarkeit
der Suchmaschine zuwider. Es ist hiermit also erforderlich, Spam
automatisiert zu filtern. Hierdurch entsteht jedoch die Gefahr, auch
viele unschuldige Webmaster zu bestrafen. Die eingesetzten Filter
dürfen also nur sehr sensibel auf potentiellen Spam reagieren.
Um dabei dennoch effektiv zu sein, kann es - wie auch im Rahmen des
PageRank-Verfahrens - sinnvoll sein, Linkstrukturen zu analysieren.
Eine derartige Vorgehensweise
wurde von einem Mitarbeiter Google's, der unter dem Pseudonym GoogleGuy auftritt,
mehrmals mehr
oder weniger eindeutig im Google-Forum von WebmasterWorld
bestätigt. Bekannt wurde sie als Bestrafung für das
"linking to bad neighborhoods". Im folgenden soll erörtert
werden, wie eine derartige Identifikation von Spam über die
Analyse von Linkstrukturen realisiert werden kann. Insbesondere soll
dabei gezeigt werden, wie mittels solcher Verfahren ganze Netzwerke von
Spam-Seiten, die gegebenenfalls auch auf viele verschiedene Domains
verteilt sind, ans Ende der Ergebnisseiten verbannt werden
können.
BadRank als Umkehrung von PageRank
Der hier präsentierte theoretische Ansatz zum PR0
wurde grundlegend zuerst von Raph Levien (www.advogato.org/person/raph)
formuliert. Basis dieses Ansatzes ist es, dass neben PageRank ein
weiteres Verfahren eingeführt wird, das nicht wie PageRank die
grundsätzliche Bedeutung einer Webseite im positiven Sinne
bestimmt, sondern vielmehr die negativen Eigenschaften von Webseiten
misst. Der Einfachheit halber soll dieses Verfahren hier BadRank
genannt werden.

Das "linking to bad neighborhoods" bildet die Grundlage
für den BadRank. Eine Seite, die auf eine andere Seite mit
einem hohen BadRank verlinkt, erhält hierdurch tendenziell
selbst einen hohen BadRank. Hiermit werden die Parallelen zu PageRank
bereits offentsichtlich, nur dass BadRank nicht auf der Bewertung der
eingehenden Links einer jeweiligen Webseite beruht, sondern vielmehr
auf deren eigenen ausgehenden Links. In diesem Sinne ist BadRank
gewissermaßen eine Umkehrung von PageRank. In einer direkten
Adaption des PageRank Algorithmus würde sich die folgende
Formel für den BadRank ergeben:
BR(A) = E(A) (1-d) + d (BR(T1)/C(T1) + ... + BR(Tn)/C(Tn))
Hierbei ist
 |
BR(A) der BadRank von Seite A, |
 |
BR(Ti) der BadRank derjenigen Seiten T, auf die Seite A
verlinkt, |
 |
C(Ti) die Anzahl der eingehenden Links der jeweiligen
Seite Ti und |
 |
d der auch hier
erforderliche Dämpfungsfaktor. |
Der Wert E(A) entsprach
im Rahmen einer der hier diskutierten Modifikationen des PageRank Algorithmus
der manuellen
Höherbewertung spezifischer Webseiten. Im Rahmen des BadRank
Algorithmus reflektiert dieser Wert, ob eine Seite beim spidern des
Webs von einem Spam-Filter erfasst wurde. Ohne diesen Wert E(A)
wäre der BadRank Algorithmus vollkommen nutzlos, da es sich
wiederum lediglich um eine Analyse von Linkstrukturen handeln
würde, der aber keine weiteren Kriterien zu Grunde
lägen.
Mit Hilfe des hier präsentierten BadRank-Algorithmus
können also zunächst Spam-Seiten erfasst werden.
Ihnen wird dann über E(A) ein numerischer Wert zugewiesen, der
beispielsweise der Schwere des Spammings entspricht oder sich
vielleicht besser am PageRank einer jeweiligen Seite orientiert, wobei
die Summe aller E(A) gleich der Anzahl der Webseiten sein muss. Im
Laufe einer iterativen Berechnung überträgt sich
dieser zugewiesene Wert dann nicht nur als BadRank auf diejenigen
Seiten, die auf Spam-Seiten verlinken. Vielmehr wäre BadRank
in der Lage, Regionen des Webs zu identifizieren, in denen Spam
besonders häufig auftritt, ganz ähnlich wie PageRank
Regionen des Webs identifiziert, denen eine grundlegende Bedeutsamkeit
zukommt.

BadRank und PageRank weisen
dabei natürlich
gravierende Unterschiede auf, die vor allem darin begründet
sind, dass die Verteilung von eingehenden und ausgehenden Links ganz
entscheidend voneinander abweicht. Unser Beispiel stellt eine einfache,
hierarchisch strukturierte Website dar, die natürliche
Linkstrukturen wohl recht gut abbildet. Dabei verlinken alle Seiten
jeweils auf all diejenigen Seiten, die hierarchisch über ihnen
angeordnet sind. Zudem verlinken sie auf die ihnen direkt
untergeordneten Seiten und diejenigen Seiten innerhalb einer solchen
Kategorie verlinken wiederum einander. Die Verteilung der eingehenden
und ausgehenden Links innerhalb einer derartigen Site gibt die folgende
Tabelle wieder.
| Ebene |
eingehende Links |
ausgehende Links |
| 0 |
6 |
2 |
| 1 |
4 |
4 |
| 2 |
2 |
3 |
Wie zu erwarten, erfolgt
hinsichtlich der eingehenden Links eine hierarchische Abstufung von oben
nach unten. Die Anzahl der
ausgehenden Links ist hingegen in der mittleren Hierarchiestufe am
höchsten. Ein ganz ähnliches Bild zeigt sich, wenn
wir eine weitere Ebene unten in unsere Beispiel-Site einfügen,
die den oben beschriebenen Richtlinien folgt:
| Ebene |
eingehende Links |
ausgehende Links |
| 0 |
14 |
2 |
| 1 |
8 |
4 |
| 2 |
4 |
5 |
| 3 |
2 |
4 |
Wiederum konzentriert sich
die Zahl der ausgehenden Links in den mittleren Hierarchiestufen. Vor allem
aber, ist die Verteilung der
ausgehden Links wesentlich gleichmäßiger als die der
eingehenden Links.
Wenn wir in unserem ursprünglichen Beispiel der
Index-Seite A einen Wert E(A) gleich 100 zuweisen, wobei alle anderen
Werte E gleich 1 sind, ergeben sich bei einem Dämpfungsfaktor
d von 0.85 die folgenden BadRank-Werte:
| Seite |
BadRank |
| A |
22.39 |
| B/C |
17.39 |
| D/E/F/G |
12.21 |
Es zeigt sich, dass der
BadRank sich von der Index-Seite aus weiter auf alle anderen Seiten der Site
verteilt. Auf die Kombination
von BadRank und PageRank wird weiter unten noch detaillierter
eingegangen, ganz gleich jedoch, wie diese erfolgt, ist es unmittelbar
ersichtlich, dass beide sich sehr gut neutralisieren könnten.
Schließlich können wir davon ausgehen, dass auch der
PageRank abnimmt, je weiter wir uns in der Seitenhierarchie nach unten
bewegen. Mit einer derartigen Neutralisierung kann in jedem Falle ein
PR0 für alle Seiten erreicht werden.
Nehmen wir nun andererseits
an, dass die hierachisch nachgeordnete Seite G auf eine Seite X mit einem
fixen BadRank BR(X)=10
verlinkt, wobei der Link von Seite G der einzige eingehende Link von
Seite X ist und alle Werte E für unser Beispiel-Site gleich 1
sind, ergeben sich bei einem Dämpfungsfaktor d von 0.85 die
folgenden Werte:
| Seite |
BadRank |
| A |
4.82 |
| B |
7.50 |
| C |
14.50 |
| D |
4.22 |
| E |
4.22 |
| F |
11.22 |
| G |
17.18 |
Hier ist die Verteilung
des BadRank weit weniger homogen als im vorangegangenen Szenario. Nichtsdestotrotz
erfolgt eine Distribution
des BadRank über die gesamte Site. Bemerkenswert ist, dass der
BadRank der Index-Seite A relativ gering ist. Es wäre damit
problematisch, einen im Vergleich zu den anderen Seiten
höheren PageRank gleichermaßen zu neutralisieren.
Dieser Effekt mag wenig wünschenswert sein, er spiegelt jedoch
die Beobachtungen zahlreicher Webmaster wider: Relativ häufig
tritt das Phänomen auf, dass alle Seiten bis auf die jeweilige
Index-Seite einer Site einen PR0 aufweisen, wobei die Index-Seite oft
einen Toolbar-PageRank von 2 bis 4 hat. Es drängt sich damit
die Vermutung auf, dass diese spezielle Form des PR0 nicht darauf
beruht, dass die entsprechende Website von einem der Spam-Filter
identifiziert wurde, sondern dass sie ihre Bestrafung aufgrund eines
"linking to bad neighborhoods" erhalten hat. Ferner wäre es
natürlich auch möglich, dass diese Form des PR0 darin
begründet ist, dass lediglich hierarchisch nachgeordnete
Bereiche einer Website von einem Spam-Filter erfasst wurden.
Die Kombination von PageRank und BadRank zum
PR0
Wenn wir davon ausgehen,
dass ein BadRank in der hier
präsentierten Form existiert, stellt sich nun die Frage, in
welcher Form BadRank und PageRank kombiniert werden können, um
einerseits möglichst viele Spammer aus den Suchergebnissen zu
eliminieren und andererseits möglichst wenige unschuldige
Seitenbetreiber ungerechtfertigterweise zu bestrafen.
Rein intuitiv bietet sich
eine Verwendung der BadRank-Werte im Rahmen der eigentlichen PageRank-Berechnung
an. So könnte
beispielsweise im Zuge der iterativen Berechnung der PageRank einer
Seite direkt durch ihren BadRank dividiert werden. Dies hätte
den Vorteil, dass eine Seite mit hohem BadRank auch keinen bzw. nur
einen minimalen PageRank weitergeben kann. Schließlich kann
man argumentieren, dass wenn eine Seite auf eine suspekte Seite
verlinkt, die anderen Seiten, auf die sie verlinkt, ebenfalls suspekt
sind. Eine direkte Verbindung birgt allerdings große
Gefahren. So sind beispielsweise die Auswirkungen auf den PageRank in
keinster Weise vorab einzuschätzen. Insbesondere ist zu
beachten, dass eine Seite, der die Möglichkeit genommen wird
PageRank weiterzugeben, zu einem Dangling Link wird. Wie jedoch im
Abschnitt zu den ausgehenden Links erörtert wurde, ist es
unbedingt erforderlich, Dangling Links im Rahmen der
PageRank-Berechnung zu vermeiden.
Es ist also sinnvoll, PageRank
und BadRank getrennt
voneinander zu berechnen. Die anschließende Kombination der
beiden kann dabei auf einfachen arithmetischen Berechnungen beruhen.
Eine Subtraktion hätte die grundsätzlich
wünschenswerte Folge, dass relativ geringe BadRank-Werte bei
relativ hohen PageRank-Werten kaum Einfluss hätten. Allerdings
wäre es mit der Subtraktion problematisch,
tatsächlich einen PR0 für viele Seiten zu erreichen.
Es würde vielmehr eine breite Abstufung in niedrige
PageRank-Regionen stattfinden. Mit der Division von PageRank durch
BadRank wäre ein PR0 leicht zu erreichen. Dies würde
jedoch implizieren, dass der BadRank eine extrem große
Bedeutung erhält. Vor allem jedoch ist ein sehr
großer Teil der BadRank kleiner als 1, da auch der
Durchschnitt des BadRanks 1 ist, womit eine Normalisierung erforderlich
wäre. Eine Normalisierung und Skalierung des BadRanks auf
Werte zwischen 0 und 1, so dass "gute" Seiten Werte nahe 1 und
"schlechte" Seiten Werte nahe 0 aufweisen, und eine
anschließende Multiplikation dieser Werte mit dem PageRank
einer Seite dürfte hier die besten Ergebnisse liefern.
Womöglich am effektivsten und am einfachsten zu
realisieren wäre jedoch eine schlichte, abgestufte Beurteilung
von PageRank und BadRank. Denkbar ist, dass sofern der BadRank einen
bestimmten Wert überschreitet, es stets zum PR0 kommt.
Gleiches gilt, wenn die Relation aus PageRank zu BadRank einen
bestimmten Wert unterschreitet. Daneben ist es sinnvoll, dass wenn der
BadRank und/oder die Relation aus BadRank zu PageRank unter einem
bestimmten Wert liegen, der BadRank keinen Einfluss nimmt. Nur wenn
keiner dieser Fälle eintritt, wäre eine
tatsächliche Kombination von PageRank und BadRank, etwa durch
Division von PageRank durch BadRank, erforderlich. Auf diese Weise
sollten alle unerwünschten Effekte vermieden werden
können.
Kritische Beurteilung von BadRank und PR0
Wie die Kombination von
PageRank und BadRank
tatsächlich erfolgt, ist eher von nachrangiger Bedeutung. Eine
getrennte Berechnung und anschließende Kombination von beiden
hat allerdings zur Folge, dass man gegebenenfalls nicht am Toolbar
PageRank messen kann, wie hoch tatsächlich der BadRank einer
Seite ist. Denn falls eine Seite einen hohen PageRank im
ursprünglichen Sinne hat, muss der Einfluss des BadRank nicht
unbedingt ersichtlich sein. Verlinkt eine andere Seite darauf, kann
dies jedoch durchaus gravierende Folgen haben.
Die weitaus größere Problematik liegt in
der hier präsentierten, direkten Umkehrung des
PageRank-Algorithmus: Genauso, wie ein zusätzlicher
eingehender Link einer Seite deren PageRank immer nur erhöhen
kann, kann ein zusätzlicher ausgehender Link einer Seite auch
deren BadRank immer nur erhöhen. Dies liegt darin
begründet, dass im Rahmen der BadRank-Berechnung sich die
übertragenen Werte einfach aufaddieren. Somit ist es
vollkommen gleich, auf wie viele untadelige Sites eine Seite verlinkt -
ein einziger Link auf eine Spam-Site kann gegebenenfalls ausreichen, um
zu einem PR0 zu führen.
Diese Problematik stellt
sich allerdings wohl nur in
Ausnahmefällen. Da sich schließlich bei einer
direkten Umkehrung des PageRank-Algorithmus der BadRank einer Seite
unter deren eingehenden Links aufteilt, wird bei einzelnen Links auf
Seiten mit hohem BadRank immer nur jeweils ein Bruchteil des BadRank
übertragen. Google's Matt Cutts sagt hierzu: "If someone
accidentally does a link to a bad site, that may not hurt them, but if
they do twenty, that's a problem." (searchenginewatch.com/sereport/02/11-searchking.html)
Solange jedoch alle Links
im Rahmen des BadRank
gleichermaßen gewertet werden, besteht dennoch auch bei
einzelnen Links ein Problem. Haben schließlich zwei Seiten
einen sehr unterschiedlich hohen PageRank und verlinken auf die gleiche
Seite mit hohem BadRank, kann es nach Art und Weise der Kombination von
PageRank und BadRank dazu kommen, dass die Seite mit dem
höheren PageRank weit weniger unter dem auf sie
übertragenen BadRank leidet als diejenige Seite mit dem
niedrigeren PageRank. Wir können allerdings zuversichtlich
sein, dass Google mit derartigen Problemen umzugehen weiß.
Nichtsdestotrotz soll nochmals angemerkt werden, dass ausgehende Links
im Rahmen der hier beschriebenen Verfahren immer nur schaden
können.
Dass die hier vorgestellten
Verfahren tatsächlich
auch dieser Form eingesetzt werden, ist natürlich reine
Spekulation. Grundsätzlich sollte jedoch die Bewertung von
Linkstrukturen in Analogie zum PageRank-Verfahren genau die Art und
Weise sein, wie nur Google mit Spam umzugehen versteht.
PageRank
und Google sind geschützte Marken der Google Inc., Mountain
View CA, USA. Das PageRank Verfahren unterliegt dem US Patent
6,285,999.
Copyright by pr.efactory.de
|