suchmaschinen


Suchfibel / Geschichten um das Suchen / Der Verlag und die Forschung

Der Verlag und die Forschung

Es begann schon wieder einmal an einer Universität. Wer sich jetzt darüber wundert, dem sei beschieden, dass das gesamte Internet seinen Ursprung im akademischen Wissens- und Gedankenaustausch hatte.

Altes Flipper Logo.Ein Team von Studenten hatte eine Suchmaschine entwickelt. Anfangs war die Maschine mit dem Namen Flipper eine unter vielen und teilte sich das suchende deutschsprachige Publikum mit einer Reihe anderer kleiner Suchdienste. Das Entwicklerteam an der TU Berlin KIT hatte der Konkurrenz aber ein paar pfiffige Detaillösungen voraus; wenn diese auch mangels Ressourcen der Universität nicht voll eingesetzt werden konnten.

Etwa zur gleichen Zeit reifte im Verlagshaus Gruner und Jahr die Idee eine eigene Suchmaschine anzubieten. Der anfängliche Gedanke einen Katalog ähnlich wie Yahoo aufzubauen, wurde schnell verworfen. Statt dessen suchte man einen Partner um eine Volltextsuchmaschine zu realisieren. Nach einer Reihe wenig zufriedenstellender Gespräche kam über den Projektleiter Dr. Detlev Kalb und seine guten Kontakte zur Universität Hamburg eine Verbindung zur Technischen Universität Berlin und damit zur Projektgruppe KIT zustande.

Der Brückenschlag von der Industrie zur Forschung war gelungen, eine der wenigen Kooperationen zwischen High-Tech Forschung und Industrie.

Die innovativen Technologien konnten weiterentwickelt und "unter Feldbedingungen" optimiert werden. So erhielt die entstandene Maschine Fireball einige Features, deren Entwicklung bereits bei Flipper begann:

Das Robotersystem besteht aus einer ganzen Reihe parallel arbeitender Crawler, die über eine zentrale Steuerung, die URL-Datenbank, alle miteinander in Kontakt stehen. Jeder Crawler meldet seine Ergebnisse und kann somit die anderen wechselseitig steuern. So erkennt das System beispielsweise, wenn eine Site erst vor kurzem besucht wurde, ob sie dabei indexiert wurde oder der Server außer Betrieb war. Auch die über die Sprache gefundenen Erkenntnisse können die Crawler einander mitteilen:

Flipper und auch der kommerzielle Nachfolger Fireball suchen nur in deutschsprachigen Dokumenten. Das tun zwar viele Maschinen, aber die meisten entscheiden recht simpel und roh, was denn nun deutsche Dokumente sind: Sie nehmen einfach die Domainendungen der deutschsprachigen Länder Deutschland, Österreich und Schweiz. (.d, .at, .ch). Bei dieser Methode fallen nicht nur alle Dokumente auf den weit verbreiteten .com-Domains unter den Tisch; es geraten auch anderssprachige Dokumente in den Index, etwa englischsprachige Dissertationen auf deutschen Universitätsrechnern.

Etwas ausgefeiltere Systeme benutzen ein Wörterbuch um anhand einzelner Worte die Sprache zu bestimmen. Fireball geht da noch differenzierter vor: Ngramme (engl.: ngrams) sind silbenähnliche Buchstabenfolgen, die für jede Sprache typisch sind. Anhand dieser Ngramme wird eine Wahrscheinlichkeit errechnet, nach der die Dokumente tatsächlich deutschsprachig sind.

Je nach Ergebnis wird das weitere Vorgehen festgelegt:

  • Ist das Dokument eindeutig fremdsprachlich, wird es nicht indexiert und auch die Links nicht verfolgt.

  • Ist die Sprache nicht eindeutig als fremdsprachlich oder deutsch zu klassifizieren, so wird das Wörterbuch konsultiert um so die Sprache des Dokumentes herauszufinden; die Links dieser Seite werden weiter verfolgt. Wegen der häufig vorkommenden Grenzfälle auf dänischen und holländischen Seiten wird bei den Domains .dk und .nl gleich zu Beginn das Wörterbuch herangezogen.

  • Kann anhand des ersten Tests eindeutig festgestellt werden, dass es sich um ein deutschsprachiges Dokument handelt, so wird es indexiert und alle Links verfolgt. Klingt zwar komplizierter als die reine Überprüfung mittels Wörterbuch, ist aber effizienter.

Alle gewonnenen Erkenntnisse, auch die über nicht indexierte Dokumente, werden in der URL-Datenbank des Systems gespeichert. Sie ist das Herz des Systems und nicht zu verwechseln mit dem Volltextindex.

In der URL-Datenbank werden auch Informationen über die letzte Änderung der Seite abgelegt. So "lernt" das System, wenn bestimmte Seiten oft geändert werden und schickt die Crawler entsprechend häufiger zum Update vorbei. Die Crawler können auch "von Hand" auf die Reise geschickt werden, etwa durch die Anmeldung neuer Seiten.

Sollte der besuchte Server dann einmal unpässlich sein, nimmt der Crawler das nicht krumm und schaut 24 Stunden später noch einmal vorbei. Jeder Crawler ist ein Multitalent: Er kann sowohl neue Seiten erforschen als auch bereits im Index befindliche Seiten updaten und aktuell halten.

Die durchdachte Kombination von innovativen Technologien in interdisziplinärer Zusammenarbeit mit bewährten Datenverarbeitungskonzepten haben Fireball in kurzer Zeit zum Marktführer in Deutschland gemacht. Wenn auch die finanzielle Schlagkraft des dahinter stehenden Verlages sicher mitentscheidend war, ist doch das Bestreben des Entwicklerteams nach neuen und besseren Lösungen die zentrale Antriebskraft. Der Bau und Betrieb einer Suchmaschine ist eben mehr als ein weiterer EDV-Job. Fireball gehört inzwischen zum Lycos Network.

Seitenanfang



Kontext:

 Gruner und Jahr


 Projekt- gruppe KIT


 Fireball


  Als Domain bezeichnet man den Namen des Internet-Servers. Zum Beispiel compuserve.com oder spiegel.de.


  Nichts ist so sicher wie die Tatsache, dass alles irgenwann einmal nicht funktioniert. Computer haben da eine grosse Auswahl an Ausreden wenn sie mal unwillig sind.






Impressum | Hilfe | Buchbestellung



Created by 23.10.2009 ID: 168 SORT: 200 PAPA: 1
Suchfibel Home