03.06.2005

Google Sitemap

Google bietet Webmastern seine Unterstützung an. Sie sollen eine XML-Datei mit den URLs aller Dateien erstellen, die sie gerne im Google-Index sehen würden. Der Vorschlag ist wie gewohnt ebenso freundlich wie unverbindlich.

Googles Vorschlag klingt im Grunde genommen einleuchtend: Robots können keine Garantie geben, dass sie alle veröffentlichten HTML-Seiten eines Informations-Anbieters für die Aufnahme in den Google-Index erfassen. Das gilt insbesondere für dynamische HTML-Inhalte, bei denen der Crawler beispielsweise keinen Links auf statische HTML-Inhalte folgen kann. Hier besteht also die Gefahr, dass ein Teil der HTML-Inhalte einfach unberücksichtigt bleibt.

Um die Arbeit des Robots zu ergänzen, macht Google daher den Vorschlag, dass Webmaster selbst eine Liste mit den URLs aller Dateien bereitstellen, die der Crawler beim nächsten Besuch abrufen soll. Für die automatisierte Erstellung dieser "Google Sitemap" stellt Google auch eine kostenlose Software (Sitemap Generator) zur Verfügung, die beispielsweise die URL-Liste anhand der (Apache) Access-Logs erstellen kann.

In diesem Zusammenhang erhofft sich Google ansonsten auch die Unterstützung der Server-Hersteller (Apache, Lotus Notes, IIS), die diese Funktion idealerweise in ihre Software integrieren könnten. Auch das ein Hinweis darauf, dass Google hiermit ein offenes Modell anstrebt, das von anderen Suchmaschinen genauso genutzt werden könnte. Das Projekt wird daher auch unter einer Creative Commons Lizenz angeboten, was letztendlich aber nur bedeutet, dass Google die Benutzung der Sitemap-Dateien durch andere Suchmaschinen nicht auf dem Rechtsweg verfolgen wird.

Was den Erfolg der Maßnahme angeht, ist man bei Google offenbar selbst noch skeptisch. Shiva Shivakumar, der das Projekt im Google Blog ankündigt, weiß noch nicht, ob Google Sitemap grandios scheitern oder alle Erwartungen im positiven Sinne übertreffen wird. Denn der Erfolg hängt wohl nicht nur von der Beteiligung der Webmaster ab, sondern auch von der Qualität der gelieferten Daten. Wobei insbesondere Missbrauch das Projekt gefährden könnte.

Insgesamt ist das Angebot Googles - wie erwähnt - vor allem für Anbieter dynamischer HTML-Informationen sehr hilfreich. Wobei man sich schon vergegenwärtigen sollte, dass mit diesem Projekt das bisherige Vorgehen der Suchmaschinen auf den Kopf gestellt wird. Denn bisher veröffentlichten Webmaster HTML-Inhalte, die dann von den Robots weitgehend selbständig erfasst wurden. Die Zeiten, zu denen URLs noch bei den Suchmaschinen angemeldet werden mussten, gehören dabei schon lange der Vergangenheit an. Ein Link wird als wesentlich besserer Weg für die Aufnahme in einen Suchmaschinen-Index angesehen.

Doch nun will Google Webmastern mit Sitemap die Möglichkeit bieten, die zu erfassenden Dateien selbst zu definieren. Noch wird dies zwar als ergänzende Möglichkeit zur bisherigen Crawler-Technik bezeichnet. Und es wird auch mehrfach deutlich gesagt, dass eine Sitemap-Liste noch keine Garantie dafür bietet, dass eine bestimmte Datei in den Index aufgenommen wird.

Doch es erscheint dennoch nicht ganz unwahrscheinlich, dass mit diesem Projekt ein neuer Standard für Suchmaschinen definiert wird. Vor allem dann, wenn die Server-Hersteller den Wunsch Googles erhören sollten und selbständig eine Sitemap im gewünschten Format produzieren.

Nachtrag: Der Informatiker Wolfgang Wiese (XWolf) weist in seinem Blog ergänzend darauf hin, dass die Erstellung einer Sitemap keineswegs als neue Idee zu bezeichnen ist. Schon in der BITV (Bundesverordnung zur barrierefreien Informationstechnik nach dem Behindertengleichstellungsgesetz) wird eine solche Sitemap gefordert. Die Idee, dass ein Spider diese "Inhaltsübersicht" nutzt, war dort allerdings nicht ausdrücklich vorgesehen.



zum Seitenanfang