Suchfibel / Die Kunst des SuchensGrenzen der Suchmaschinen

Grenzen der Suchmaschinen

Gesamte Zahl der indexierten Dokumente pro Maschine.

Jede Suchmaschine hat nur eine bestimme Kapazität zur Verfügung und kann daher nur einen Teil der weltweit erreichbaren Dokumente in ihren Datenbestand aufnehmen. Diese Zahl geben die Betreiber meist an. Bei lokal operierenden Services ist die Gesamtzahl zwar relativ klein, der Datenbestand kann aber trotzdem leicht eine hohe Prozentzahl aller im Suchraum verfügbaren Dokumente umfassen. Eine hundertprozentige Erfassung aller Dokumente ist wegen der ständigen Änderungen nahezu unmöglich.

Aktualität der Eintragung

Sowohl die Redakteure als auch die Suchrobots kontrollieren die einmal indexierten Seiten in bestimmten Abständen auf Aktualität. Diese Aktualisierungszyklen sind von Maschine zu Maschine unterschiedlich und können schon mal mehrere Monate betragen. So kann es passieren, dass nicht mehr existierende Dokumente als Suchtreffer gelistet werden oder Titel und Inhaltsangaben nicht mehr vollständig übereinstimmen.

Suchtiefe pro Domain

Jeder Robot taucht nur bis zu einem bestimmten Punkt in die Verzeichnisstruktur eines Servers ein. So wird bei sehr umfangreichen Sites ein Teil der Dokumente vom Suchrobot bewusst ausgespart. Die Gründe dafür sind mangelnde Kapazität oder zu hoher Zeitaufwand. Schließlich sollen nach dem Wunsch der Betreiber möglichst viele verschiedene Server erfasst werden. Besonders betroffen hiervon sind die Nutzer der großen Onlinedienste, deren Seiten neben zigtausenden anderer auf dem gleichen Server liegen. Die werden von den Suchrobots öfter mal ignoriert.

Suchtiefe pro Dokument

Nicht alle Robots indexieren den vollständigen Text eines Dokuments. Manche erstellen eine Zusammenfassung. Die Relevanz der Auswahl für den Gesamtinhalt der Seite schwankt dabei stark. So kann es durchaus vorkommen, dass nur unwesentliche Teile des Dokuments im Datenbestand der Suchmaschine landen.

Ausschluss bestimmter Seiten

Jeder Betreiber eines Internet Servers hat die Möglichkeit, bestimmte Teile des Servers vor Zugriffen zu schützen. Der restriktivste Schutz ist die vollständige Verkapselung der Dokumente in einem firmeninternen Intranet. Weniger restriktiv, aber genauso wirksam, ist ein Passwortschutz für bestimmte Verzeichnisse oder Dokumente eines Internetservers. Solche Bereiche sind nur einem bestimmten Personenkreis zugänglich. Die Suchroboter können auch daran gehindert werden Seiten zu indexieren, etwa weil ein paar Dokumente für die Allgemeinheit uninteressante Informationen, wie z. B. endlose Zahlenkolonnen und technische Beschreibungen enthalten. Die Datei robots.txt im Rootverzeichnis eines Servers regelt dies. In allen genannten Fällen werden die Dokumente, obwohl für Besucher im Einzelfall zugreifbar, nicht indexiert und können folglich auch nicht über Suchmaschinen gefunden werden.

Ausschluss bestimmter Worte: Stopwords

Logische Operatoren sind echt praktisch zur besseren Formulierung der Suche.

Viele Suchmaschinen schließen Suchworte aus, die drei oder weniger Buchstaben enthalten, da sie meist zu häufig und unspezifisch vorkommen. Der, die, das, to, be, the sind Beispiele. Diese Worte können nur als Teil einer Phrase gefunden werden. Auch nach den als logische Operatoren verwendeten Worten wie AND, OR, NOT kann nicht gesucht werden.

Dynamisch generierte Dokumente

Dynamische Seiten können unter umständen Unsichtbar bleiben.

Manche HTML-Seiten werden nicht von Autoren verfasst, sondern aus Datenbanken oder über besondere Programme dynamisch, d.h. im Augenblick des Aufrufes durch einen Betrachter erzeugt. Diese Dokumente, obwohl sie wie gewöhnliche Seiten übertragen werden und auch so aussehen, existieren nur im Augenblick der Anzeige auf einem Browser. Sie können zwar dort gespeichert werden, aber ein Robot kann die Information dieser nicht statischen Seiten nicht indexieren. Dynamisch generierte Dokumente können auf besonderen Dateiformaten beruhen, die der Robot nicht interpretieren kann oder auf Einträgen in Datenbanken. Solche Datenbanken bieten dann oft über eine eigene Suchmaschine Zugang zu den dort gespeicherten Informationen. Beispiel hierfür sind Bibliothekskataloge.

Bibliothekskataloge bieten Recherchemöglichkeiten in Bereichen, die normalen Suchmaschinen verschlossen bleiben.

Unverlinkte Seiten

Die Maschinen hangeln sich an Hyperlinks von Dokument zu Dokument. Wenn es auf ein (neues) Dokument keine Querverweise gibt, steht es quasi auf einer Insel und wird auch nicht gefunden. Erst später, wenn das Projekt angemeldet oder von anderen Seiten verlinkt wurde, nehmen die Suchdienste davon überhaupt Notiz.

Leitungsüberlastung

Werden zu viele Anfragen über eine Internetverbindung geschickt, können die Dateien "im Stau" stecken bleiben. Ein Timeout ist die Folge, die Verbindung wird nach mehreren Übertragungsversuchen geschlossen. Das passiert zuweilen bei Verbindungen zu manchen Universitäten und hochfrequentierten Servern und zu besonderen Stoßzeiten im Netz.

Serverüberlastung

Jede Suchmaschine kann nur eine bestimmte Anzahl von Anfragen gleichzeitig bearbeiten. Zu viele gleichzeitige Nutzer können ein System überfordern. Es erscheint eine entsprechende Meldung.

Hardwarecrash

Wo Technik werkelt, da geht sie auch kaputt. Ein Grund für einen zeitweise nicht funktionierenden Dienst ist manchmal ganz banal.

Neben der Technik spielt die Qualität der Dokumente eine große Rolle dabei, ob und wie gut Seiten gefunden werden.



Die Grenzen der Maschinen werden immer weiter hinausgeschoben. Trotzdem wird es immer mehr Seiten und Inhalte geben, als die Suchmaschinen zeitnah erfassen können.