Funktionsweise von Suchmaschinen

Eine der ersten Search Engines war der World Wide Web Worm (WWWW) [McBryan]; danach entstanden zahlreiche Varianten, deren grundlegende Funktionsweise jedoch immer gleich blieb: Ein sog. Robot fordert rekursiv die Seiten einer Website an, folgt den Hyperlinks in den Dokumenten und generiert einen Index über die enthaltenen Worte.

Im Detail arbeiten die Suchmaschinen jedoch bereits beim Indexieren unterschiedlich; beispielsweise werden bestimmte HTML-Attribute wie <STRONG> und <EM> sowie bestimmte Informationen aus dem <HEAD> ausgewertet. Dies bestifft insbesondere den Seitentitel (<TITLE>) sowie die sog. Meta-Tags. Verbreitet sind vor allem die folgenden Parameter:

  • AUTHOR
  • DESCRIPTION
  • KEYWORDS

Die Meta-Tags sind jedoch noch nicht standardisiert; einen Ansatz hierzu bietet der Dublin Core-Ansatz, der eine Reihe von Parametern vorschreibt. Auch das W3-Konsortium arbeitet an einer Standardisierung unter der Bezeichnung Resource Description Framework (RDF).

Darüber hinaus gewichten die automatischen Indexierer beispielsweise die Position eines Wortes im Dokumente (Anfang/ Ende) sowie die Worhäufigkeit.

Die genaue Funktionsweise einer Volltext-Suchmaschine ist nicht öffentlich dokumentiert; dies dient u.a. dazu, das Verunreinigen der Datenbasis durch sog. Spammer einzuschränken.

Durch das Robot Exclusion Protocol kann ein Robot darüber informiert werden, bestimmte Bereiche einer Website nicht zu besuchen.

Generell gilt, daß die Robots bestimmte Inhalte bzw. Typen von Websites nicht oder nur eingeschränkt indexieren; dazu gehört u.a. die Verwendung von Frames, multimediale Daten wie Macromedia Flash und Shockwave, scriptgenerierte Hyperlinks und dynamisch generierte Seiten (beispielsweise aus Datenbanken).

 

 

powered by Webcounter