TrustRank
Erst im vergangenen Monat hat Google Markenschutz für den Begriff "TrustRank" beantragt. Der Suchmaschinen-Experte Gary Price bringt das in Verbindung zu einem Forschungspapier, das ebenfalls im März an der Universität Stanford veröffentlicht wurde.
Dieses Papier (12 Seiten PDF: 'Combating Web Spam with TrustRank'), gemeinsam verfasst von zwei Stanford-Wissenschaftlern und einem Mitarbeiter von Yahoo, beschreibt eine allgemeines Verfahren zur Reduzierung der Spam-Ergebnisse bei Suchmaschinen. Damit sind Sites gemeint, "die geschaffen wurden, um Suchmaschinen zu täuschen". Als Beispiel wird eine Site mit Erwachseneninhalten angegeben, die Tausende von irrelevanten Suchbegriffen verwendet und dies möglicherweise noch durch die gewählten Farben (z.B. weiß auf weiß) verbrämt.
Ziel der Studie ist es der Nachweis, dass eine Unterscheidung zwischen Spam und Nicht-Spam schon durch eine vergleichsweise geringe "Saat" von vertrauenswürdigen Sites möglich ist. Diese Saat wird zunächst von Experten auf ihre inhaltliche Reputation überprüft. Danach wird maschinell die mit ihnen verbundene Link-Struktur analysiert.
Das Denkmodell dieses Verfahrens geht davon aus, dass Spam-Sites nicht von vertrauenswürdigen Seiten verlinkt werden. Das Forschungspapier kommt aufgrund einer mathematischen Analyse zum Ergebnis, dass schon eine zahlenmäßig kleine Saat von weniger als 200 gut beleumundeten Sites dazu ausreicht, um Suchmaschinen-Spam zu reduzieren.
Ob dieses Verfahren nun auch in Verbindung zu der von Google angemeldeten Marke "TrustRank" steht, kann dahingestellt bleiben. Interessant erscheint allenfalls, dass sich mit dieser Markenanmeldung zu bestätigen scheint, dass Google sein eigenes PageRank-Verfahren für verbesserungsfähig hält. Denn schon seit längerer Zeit gilt der Google PageRank hinsichtlich der Suchergebnis-Reihefolge als eher vernachlässigbare Größe. Etwas mehr Vertrauen (Trust) in diesen Wert wäre schon eine wünschenswerte Sache.
Doch jenseits aller Spekulation um mögliche Google-Vorhaben ist das erwähnte Forschungspapier interessant. Und sei es, weil auch diese Studie wie viele andere dieser Art einen eklatanten Fehler aufweist: Die benutzte Spam-Definition ist in der Praxis eher ungenügend.
Das oben erwähnte Beispiel der Erwachsenen-Site mag zwar noch auf allgemeine Zustimmung stoßen. Aber jede definitorische Ausweitung wird zu lebhaften Diskussionen führen. Wie soll beispielsweise das aus Sicht von Suchmaschinen-Optimierern optimal gestaltete Verkaufsangebot eines Händlers gewertet werden? Bei Anlegung der in dem Text weiter gebrauchten Definition, wonach Spam-Sites die Zahl der auf sie gerichteten Links manipulieren, wären auch solche Sites als Spam zu bezeichnen. Zumindest dann, wenn sie sich um Einträge in den einschlägigen Verzeichnissen bemühen - und damit um die Erhöhung der Links. Und ob eine solche Site von einer "vertrauenswürdigen" Site verlinkt wird, hängt wohl von der getroffenen Auswahl dieser Sites ab.
Die Autoren der Studie vermeiden die Diskussion dieses grundsätzlichen Problems, indem sie Bestimmung von Spam-Sites als ebenso "subjektiv" bezeichnen, wie die Abgrenzung von Mail-Spam. Doch das ist nicht richtig. Auch wenn es durchaus unterschiedliche Definitionen von Mail-Spam gibt, so ist doch den meisten von ihnen das vergleichsweise leicht identifizierbare Kriterium der unaufgeforderten Zusendung gemeinsam.
Ein vergleichbar geeignetes Merkmal findet man aber beim Suchmaschinen-Spam nur auf dem kleinsten gemeinsamen Nenner. Und das betrifft eben nur die genannte P0rno-Site, die irrelevante Suchbegriffe im HTML-Code versteckt. Eine Site, die also zweifelsfrei der "Täuschung" dient. Dieses Kriterium wird man aber nicht auf einen Händler anlegen können, der gezielt einen von ihm vertriebenen Artikel als Begriff in den Vordergrund stellt und dabei die Vorlieben der Suchmaschinen berücksichtigt.
Ansonsten ist die Entscheidung über die Einordnung als Suchmaschinen-Spam extrem von der jeweiligen Intention des Suchenden abhängig. Will ein Suchender ein bestimmtes Produkt kaufen, so wird er in diesem Fall Suchergebnisse von Händlern begrüßen. Will er sich dagegen aus rein wissenschaftlichem Interesse mit einem Gegenstand beschäftigen, so wird er Handelsangebote als Spam interpretieren.
Die Stanford-Studie versucht diese Probleme nun dadurch zu umgehen, dass sie vertrauenswürdige Seiten und ihre Referenzen in diese Betrachtung einbezieht. Doch dadurch wird das Problem nur auf eine andere Ebene verschoben. Nun geht es nicht mehr um die Frage, wer welche Site unter welchen Bedingungen als Spam empfindet, sondern wer welche Site für vertrauenswürdig hält.
Und auch das ist wieder in erster Linie von der Intention des Suchenden abhängig. Wer sich wissenschaftlich mit dem Thema Numismatik beschäftigt, wird wohl Wikipedia als Referenz-Site akzeptieren, weil von dort aus wissenschaftliche Sites verlinkt werden. Wer sich dagegen für den Erwerb von Münzen aus illegal ausgeplünderten Bodendenkmälern interessiert, wird wohl eher eine Site als "vertrauenswürdig" bestimmen, wenn sie auf ein bekanntes Online-Auktionshaus verlinkt. Jedem das Seine eben.