Suchfibel / Die Kunst des SuchensDer robotergenerierte Index

Der robotergenerierte Index

Eine roboterbasierte Suchmaschine besteht im Wesentlichen aus drei Teilen. Der erste Teil ist der Informationssammler, "Robot", "Spider" oder "Crawler" genannt, der durchs Netz zieht und Seiten vollautomatisch absurft. Einer oder mehrere dieser Exemplare sorgen dafür, dass ein riesiger Datenberg an die "Verwaltung", den Index, geschickt wird.

Der zweite Teil ist die Indizierungssoftware, die die Daten strukturiert und durchsuchbar macht. Wie das im Einzelnen geht, lesen Sie im Kapitel Was steckt dahinter?

Eine weitere Software wertet die Suchanfrage aus, verknüpft logische Operatoren und schickt die Anfrage an den Datenserver, um von dort aus die Ergebnisse zu präsentieren. Hierbei wird meist auch der Ort des Vorkommens im Dokument besonders berücksichtigt. Wenn das Wort im Titel oder im Meta-Tag der Beschreibung vorkommt, wird es höher gewichtet als im Body-Text.

Zeichenketten entscheiden, nicht der Inhalt.

Dieser kleine Exkurs soll verdeutlichen, dass Sie bei der Suche in einem solchen Index ein klein wenig mehr auf der Computerebene denken müssen und weniger wie ein Redakteur. Die Strukturierung eines Dokumentes und die logische Verknüpfung von Begriffen tritt in den Vordergrund; in den Hintergrund gerät der sachliche Gesamtinhalt eines Dokumentes und die Relevanz einzelner Wörter für diesen Inhalt. Diese Relevanz müssen Sie durch eine geschickte Formulierung der Anfrage bestimmen. Zu diesem Zweck sollten Sie sich möglichst der erweiterten Suchoptionen bedienen. Hier sind die Verknüpfungsmöglichkeiten viel größer.

Zum Beispiel ist es vollkommen unsinnig, nach einem häufigen Begriff, wie z. B. "Wasser" zu suchen. Die Trefferliste würde in die Zig- wenn nicht Hunderttausende gehen. Vielmehr müssen Sie das Umfeld definieren und sich über den Zusammenhang klar werden, in dem Sie den Begriff suchen, z. B. Energiegewinnung oder Landwirtschaft.

Präzise Wortwahl.

Seien Sie gewiss (gewiß?), dass Sie im Netz immer noch eine Menge Seiten nach der alten Rechtschreibung finden werden. Oder der neuen alten. Oder der ganz alten. Vor lauter Rechtschreibreformen weiss man gar nicht mehr so recht, wie was geschrieben wird.

Weiter sollten Sie überlegen, welche Begriffe noch in Zusammenhang mit dem Suchwort stehen oder welche Sie explizit ausschliessen wollen. Bei obigem Beispiel "Landwirtschaft" lassen sich Begriffe wie "Energie", "Schifffahrt" (nach neuer Rechtschreibung mit drei "f"), und "Medizin" ausschließen. Das Suchgebiet ist immer noch ziemlich groß. Wenn Sie z. B. wissen wollen, welche Rolle die künstliche Wasserversorgung in der Landwirtschaft spielt, könnten Begriffe wie "Bewässerung", "Versorgung", "Pumpen", "Rohre", "Trockenheit" oder der Terminus "künstliche Wasserversorgung" die Zahl der Dokumente besser spezifizieren. Sie sollten aber nicht mit zu vielen UND Begriffen beginnen, da eventuell die Datenbasis nicht ausreichend genug ist und Sie dann gar keine Treffer erhalten. Ein schrittweises Eingrenzen bei zu vielen Treffern bietet sich an. Es kann hilfreich sein, die verknüpften Begriffe leicht zu variieren, denn Sie sind bei der Suche immer darauf angewiesen genau die Terminologie zu verwenden, derer sich der Autor der entsprechenden Seite bedient hat.

Wenn Sie die Suchbegriffe in Englisch angeben, wird Ihnen bei einer Anfrage an einen internationalen Server das gesamte englischsprachige Datenmaterial als Grundlage für die Suche dienen.

Die wichtigsten Befehle

Praxistipp: Das Pluszeichen kann bei modernen Suchmaschinen weggelassen werden. Wenn mehrere Wörter zusammen eingegeben werden, wird zuerst nach Dokumenten gesucht, die beide Wörter enthalten.
Mehr zum Verknüpfen von Suchbegriffen bei der Bedienung der Suchmaschinen

Einige häufig zu findende Eingabemöglichkeiten:

Die Syntax der Suchserver bei der Eingabe, die Möglichkeiten und der Komfort unterscheiden sich zum Teil erheblich voneinander. Genauere Informationen hierzu können Sie in der jeweiligen Beschreibung der deutschen und internationalen Server nachlesen.

Die Misch-Maschine.

Die meisten Anbieter beginnen, ihren speziellen Dienst mit dem jeweils anderen Suchkonzept zu verbinden. So arbeitet der Katalog Web.de mit der Suchmaschine Fast Search (Alltheweb) zusammen. Yahoo kooperiert mit Google: Wann immer die Suche im Yahoo-Katalog erfolglos ist, wird automatisch "umgeschaltet". Der Sucher erhält auf jeden Fall (irgend-) ein Ergebnis. Auch kleinere Maschinen wie Eule und viele andere regionale Server richten zusätzlich Verzeichnisse ein. Das macht leider nicht immer Sinn, denn eine Anfrage in einem Katalog wird, wie Sie gemerkt haben, anders formuliert als eine in einem Volltextindex.


Web Bots, auch einfach Bots, Spider oder Crawler genannt, sind von Suchservern geschickte Programme, die im WWW Informationen sammeln. Mehr dazu finden Sie im Kapitel "Was steckt dahinter?