SWITCH Security-Blog

SWITCH-CERT IT-Security Blog

Deep Web – Das Netz unter dem Netz (Teil 2)

3 Comments


Dieser Artikel wurde von Katja Locker verfasst.

Warum Suchmaschinen am Deep Web scheitern

„Sehr viele User glauben, sie bekämen alle Seiten des Netzes, wenn sie die Suchmaschine von Google benutzen“, sagt Web-Unternehmer Anand Rajaraman im Interview mit „der Freitag“. Er ist Mitbegründer von „Kosmix“ – eine der ersten von heute  vielen Meta-Suchmaschinen der Nach-Google-Generation. Tatsächlich aber kratzt Vieles von dem, was wir beim täglichen Surfen und Suchen zu sehen bekommen, nur an der Oberfläche. Das liegt vor allem daran, dass gängige Suchmaschinen nur bedingt Zugang zu den Inhalten des Deep Web haben.

Was nicht passt, wird auch nicht passend gemacht

Suchmaschinen stossen im Allgemeinen auf zwei Arten auf frei verfügbare Informationen: robot

1. Indem Webseiten-Halter ihre Inhalte selbst bei Google eintragen.
2. Indem sie so genannte Webcrawler, auch Spider oder Suchroboter genannt, benutzen. Diese springen von Hyperlink zu Hyperlink – und damit von einer Webseite zur nächsten. Alles, was dabei an neuen Texten auftaucht, wird indexiert und damit für die nächste passende Suchanfrage gespeichert.

Um von Suchmaschinen auch gefunden zu werden, müssen Webseiten in einem bestimmten Format daherkommen und statischen Textinhalt haben. Flash-Animationen, Videos und ähnlich „Exotisches“ wird von ihren Spidern und Robotern weitgehend ignoriert. Um sich dennoch einen Überblick über all  das im Deep Web verborgen Liegende zu verschaffen, sollte man sich spezieller Deep-Web-Suchmaschinen bedienen –  beispielsweise „Scirus“, „Mahalo“ oder „Deep Web Harvest Engine“. Solche Meta-Suchmaschinen sind oft thematisch spezialisiert und dienen zur ganz gezielten Orientierung und Informationssuche in den Web-Tiefen. Das macht auch Sinn, denn die Datenflut dort ist so gewaltig, dass man sonst nie auf einen grünen (Informations-)Zweig kommen würde.

Das Zauberwort heisst „Information retrieval“

RechercheUniversitäten weltweit haben früh erkannt, dass die Qualität gängiger Suchmaschinen in puncto Recherche so rapide sinkt, wie die Informationen im Deep Web wachsen. „Information Retrieval“ heisst die Lösung, mit der Hochschulen kommende Generationen für das Problem sensibilisieren wollen. Kurz gesagt geht es dabei um die Kompetenz, wertvolle Informationen dort zu finden, wo sie liegen: im Deep Web, genauer gesagt in den sonst unerreichten Fachdatenbanken.
Auch schweizweit ist die Vermittlung von „Informationskompetenz“ mittlerweile zur Schlüsselqualifikation angehender Akademiker geworden. Tiefergehende Vorlesungen zum Thema „Information Retrieval“ gehören etwa bei der ETH Zürich, der EPFL in Lausanne, der Université de Genève oder der HTW Chur zum festen Lehrplan. Dabei geht es darum, die computergestützte Recherche mithilfe von Techniken wie „Data Mining“ und „Text Mining“ zu vermitteln. Und darüber hinaus um eine gesunde Skepsis gegenüber dem, was gängige Suchmaschinen nach dem Motto „Masse statt Qualität“ liefern.

Die Grenzen zwischen Visible Web und Deep Web verwischen

Die Problematik der Suchqualität ist auch den grossen Suchanbietern wie Bing, Yahoo oder Google nicht entgangen. Sie suchen nicht erst seit gestern nach Wegen, um Inhalte aus dem Deep Web stückweise in ihre Suchfunktion zu integrieren – und damit die Qualität der Suchergebnisse zu verbessern. Wie genau sie dabei vorgehen, ist natürlich Betriebsgeheimnis. Von Google etwa weiss man nur grob, dass der Marktführer an einem Crawler arbeitet, der automatisch dynamische Suchanfrage von Nutzern simuliert. Die Anfragen werden an öffentliche Datenbanken weitergeleitet, deren Inhalte so sukzessive indexiert und somit Teil des „Visible Web“ werden. Das umstrittene Digitalisieren von Millionen an Büchern, Zeitungen, Bibliotheks-Texten gehört ebenfalls dazu. „Google Books“ hat bereits Milliarden von Seiten aus rund 20 Millionen Büchern gescannt und in die eigene „Buchsuche“ integriert.

Einfach sämtliche Inhalte des Deep Webs zu indexieren, hält die Daten-Management-Forscherin Juliane Freire für wenig sinnvoll – allein schon wegen der „Millionen unnützer Verbraucherinformationen“, die sich dort tummeln. Freire  war lange Zeit Professorin an der Universität Utah und dort Projektleiterin des international vielbeachteten Suchmaschinen-Projekts „Deep Peep“. Nach ihrer Auffassung wäre es auch gar nicht machbar, wirklich alle Netzinhalte anzuzeigen. Dafür gebe es „einfach zu viele Daten.“

Warum Aktivisten das Internet als “Filternet” verspotten, kann man ab kommenden Donnerstag, 14. März, lesen: in Teil drei unserer sechsteiligen Deep-Web-Serie.

3 thoughts on “Deep Web – Das Netz unter dem Netz (Teil 2)

  1. The Link to the http://www.mahalo.com website contains a typo. I also nowhere found a direct contact function.

  2. Ich glaube der „Mahalo“ Link ist nicht der richtige. Da lacht mich ein Baby mit Windel an 😉

    • War nur ein Aufmerksamkeits-Test für die Leser 😉 Vielen Dank für den Hinweis!