SWITCH Security-Blog

SWITCH-CERT IT-Security Blog

Deep Web – Das Netz unter dem Netz (Teil 1)


Dieser Artikel wurde von Katja Locker verfasst.

Als ob man ein Fischernetz über die Wasseroberfläche zieht – so in etwa kann man sich die Informationssuche der „Generation Google“ vorstellen. Vieles bleibt dabei im Netz hängen, aber die weitaus grössere Beute schwimmt irgendwo weiter unten.

Mit dieser Metapher erklärte Namensgeber Mike K. Bergman 2001 erstmals, was sich hinter dem von ihm geprägten Begriff „Deep Web“ verbirgt. Es ist derjenige Teil des Internets, der am schnellsten wächst; der um ein Vielfaches so gross ist wie das, was man zu sehen bekommt, wenn man mit gängigen Suchmaschinen an der Oberfläche kratzt: Das „Visible Web“ oder „Surface Web“ besteht laut worldwidewebsize.com aus 13,32 Milliarden Webseiten (Stand: Feb. 2013): Alles, was wir über Google und Co. erreichen, sind Ansammlungen unzähliger Querverweise (Hyperlinks). Die Inhalte auf den entsprechenden Seiten sind von Suchmaschinen indexiert und daher schnell verfügbar.

Bestandsaufnahme: Was schwimmt oben, was unten?

Zum Deep Web gehört alles, was gängige Suchmaschinen nicht oder nur teilweise finden können:

  • Inhalte, die in öffentlichen wie privaten Datenbanken gespeichert sind – z.B. sbb.ch oder tel.search.ch – Bibliothekskataloge, Digitalisiertes, Videos, etc. Hier kommt man nur mit speziellen Suchmaschinen weiter.
  • Webseiten und Daten, die Passwort- oder Login-geschützt sind. Dazu gehören auch dynamische Datenbanken sozialer Netzwerke wie Facebook, Twitter und Co., Online-Banking-Daten, Pressearchive, Intranets, Bilddatenbanken, Firmeninterna etc.
  • Dynamisch generierte Webseiten, die nur vorübergehend oder im Kontext einer Nutzeranfrage entstehen. Ein Beispiel dafür ist die Google Ergebnisliste nach einer bestimmten Begriffssuche.
  • Alle Seiten, die weder statische HTML-Inhalte noch Text beinhalten, Grafiken oder Videos sowie beschädigte Dateien.
  • So genannte „orphan pages“: Webseiten, die nirgends verlinkt sind.
  • Webseiten und Datenbanken, die nicht gefunden werden sollen und die Suchmaschinen deshalb bewusst aussperren.
  • Inhalte, die zensiert und damit aus dem sichtbaren Teil des Webs gelöscht wurden.
  • Inhalte, die sehr tief „unten“ innerhalb einer Homepage liegen. Webautoren nutzen daher „Sitemaps“, die den Crawlern der Suchmaschinen dabei helfen, sich innerhalb der Webseite „entlangzuhangeln“.

Wem das nun sehr geheimnisumwittert vorkommt, dem sei gesagt: Gut 95 Prozent aller Inhalte im Deep Web sind theoretisch frei zugänglich. Mehr als die Hälfte davon befasst sich mit einem spezifischen Thema. „Schmal, aber tief“, charakterisieren Fachleute die Informationstiefe im Deep Web – und werten die Qualität der Inhalte daher höher ein als im Visible Web. Das ist ein Grund dafür, warum Webseiten im Deep Web laut Online-Enzyklopädie Wikipedia durchschnittlich eine 50 Prozent höhere Zugriffsrate haben als ihre Pendants „weiter oben“.

Und das Interesse an diesem verborgenen Teil des Internets wächst, wie die weltweite Suchstatistik von Google Trends zeigt. Demnach ist die Zahl der Internetnutzer, die über Google mehr über das „Deep Web“ erfahren wollen seit 2011 raketenartig gestiegen (siehe Grafik).

GoogleTrends_DeepWeb_gross

Lag das Suchvolumen nach „Deep Web“ pro Monat 2011 noch bei 7, ist Anfang 2013 der Wert 100 erreicht. Dies Werte sind keine absoluten Zahlen, sondern sie geben an, wie viele Suchanfragen für den Begriff „Deep Web“ pro Monat anfielen im Vergleich zur Anzahl aller Google-Suchanfragen. Quelle: google.com

Warum gängige Suchmaschinen am Deep Web scheitern, wird im zweiten Teil der insgesamt sechsteiligen Deep-Web-Serie verraten: am Donnerstag, 7. März.

Comments are closed.