Suchmaschinen: wie ich mich darüber schlau mach(t)e

 

Das ist keine Suchmaschinen-Konstruktion! Das ist eine Bildkonstruktion, die fast nur mit Hilfe  von  Photoshop-Tools erzeugt wurde. „Räderwerk“. Burkhard Zimmermann. 2015. 

Suchmaschinen: wie ich mich darüber schlau mach(t)e

Wozu will ich Suchmaschinen verstehen? Weil ich meine Webseite dann viel gezielter gestalten und optimieren kann. Auf dass sie bei entsprechenden Suchanfragen gefunden und vom Browser an prominenter Stelle präsentiert wird.

Liebe Leserin, lieber Leser! Ich stelle Dir zuerst eine Quizfrage bezüglich Suchmaschinen, die mich, einen Digital Immigrant, beschäftigt hat:

Wieso sind Suchmaschinen nicht „Maschinen“ wie z.B. Zeitungs-Druckmaschinen bzw. warum sind search engines nicht ‚engines‘ wie die Triebwerke eines Flugzeugs?

Das habe ich mich als gelernter Maschinenbau-Ingenieur gefragt. Eine Recherche in gedruckten Herkunfts- Wörterbüchern brachte schlussendlich die gleichen Ergebnisse wie die Internetsuche unter http://www.dictionary.com/browse/engine

…Origin of engine Middle English Old French Latin1250-1300 Middle English engin < Anglo-French, Old French < Latin ingenium nature, innate quality, especially mental power, hence a clever invention,…

und  http://www.thefreedictionary.com/machine  :

…[French, from Old French, from Latin māchina, from Greek mākhanā, dialectal variant of mēkhanē;

…hätte ich doch gleich machen sollen statt Bücher zu wälzen: „Maschine“ und ‚engine‘ gehen auf dasselbe griechische Wort mechos zurück, was so viel wie Werkzeug/Mittel bedeutet. Suchmaschinen sind daher Werkzeuge zum Suchen. Na also…geht doch!

Eine Einstiegsmöglichkeit

Liebe/r Leser/in, to start with a test gebe ich jetzt im Firefox-Browser meines PC das Stichwort „Suchmaschinen“ ein.

Damit wäre schon einmal ein erster Einstieg ins Thema gelungen. Nun könnte ich die Adressen nacheinander anklicken und die Kurzfassungen und gegebenenfalls die gesamten Dokumente lesen.

Aus der Dokumentenliste der Yahoo-Suche klicke ich einen Wikipedia-Artikel an, 

https://de.wikipedia.org/wiki/Suchmaschine:

ich zitiere ausnahmsweise die Zusammenfassung und das Inhaltsverzeichnis:

Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Internet-Suchmaschinen haben ihren Ursprung in Information-Retrieval-Systemen. Sie erstellen einen Schlüsselwort-Index für die Dokumentbasis, um Suchanfragen über Schlüsselwörter mit einer nach Relevanz geordneten Trefferliste zu beantworten. Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine eine Liste von Verweisen auf möglicherweise relevante Dokumente, meistens dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei können verschiedene Suchverfahren Anwendung finden.

Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind:

  • Erstellung und Pflege eines Index (Datenstruktur mit Informationen über Dokumente),
  • Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie
  • Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form.

In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch Webcrawler, auf einem einzelnen Computer durch regelmäßiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem.

Inhaltsverzeichnis

Das liefert mir und Dir, liebe/r Leser/in,schon detailliertere Informationen über das Suchfeld. Den vollen Text kannst Du Dir mal schnell selbst herunterladen und ansehen.

Eine zusätzliche, äußerst wertvolle Hilfe bietet uns Wissbegierigen jeder Wikipedia-Artikel noch zusätzlich an: Weblinks, die uns mittels Link-Browsen immer tiefer in unser Suchfeld mit allen seinen Verästelungen führen.

Mein tatsächlicher Einstieg: E-Learning-Kurse auf Uni-Niveau

Zu dem Thema „Wie funktionieren Suchmaschinen?“ habe ich noch einen weiteren interessanten Zugang gefunden (um genau zu sein: damit habe ich überhaupt den Einstieg ins Thema begonnen!): auf der e-learning-Plattform der UNI Potsdam/Hasso Plattner Institut/openHPI, wo ich in Sachen IT-Weiterbildung laufend Kurse absolviere, schrieb ich mich in den mooc-Kurs „Wie funktioniert eine Suchmaschine?“ https://open.hpi.de/courses/searchengine2017 ein. Die Teilnahme ist gratis,  der Videokurs dauert 2 Wochen und wer die Abschlussprüfung positiv besteht, erhält ein Abschlusszeugnis mit den begehrten ECTS-Punkten. Zusätzlich besorgte ich mir – natürlich in der örtlichen Buchhandlung von Andrea Wurzinger in Freistadt…buy local! – das im Kurs zur Vertiefung empfohlene Buch „Suchmaschinen verstehen“ von Dirk Lewandowski.

Kurs und Buch zusammen und gegebenenfalls weitere W³-Recherchen reichen für einen ersten Überblick sicher aus, um in einem ersten Schritt

  1. bessere Suchergebnisse zu erzielen und
  2. die eigenen Webseiten so zu optimieren zu beginnen, dass sie im Netz möglichst oft zitiert und an den vordersten Plätzen einer Suchantwort zu finden sind.

Sehen wir uns jetzt dazu die  Architektur und Funktionsweise der mit Abstand größten  Suchmaschinen– Google – an:

Mittels einer speziellen Software, den Web-Crawlern (=Krabbler, Krauler, Kriecher…) durchkämmen spezielle Server (=Computersysteme) ununterbrochen die Milliarden Webseiten des WWW. Und zwar ausgehend von einem gut gemischten Portefeuille von Dokumenten (dem seed set, es ist unterschiedlich je nach Suchmaschine), erkennen sie auf jeder über einen Link  (=Wegweiser) gefundenen weiteren Webseite die dort vorhandenen Links mitsamt ihren URLs und notieren sie in einer Warteschlange (queue). Diese queue wird dann abgearbeitet, indem die zugehörigen Dokumente (=Webseiten und andere öffentlich zugänglichen Dokumente, wie sitemaps und feeds) eines nach dem anderen aufgerufen und wieder  nach Links abgesucht werden, deren URLs wieder der Warteschlange hinzugefügt werden. Eine nie endende Arbeit: Sisyphus lässt grüßen…Diese Webkrauler, auch Webspider/Netzspinnen genannt, arbeiten zuverlässig 24 Stunden, 365 Tage im Jahr. Dabei bauen/spinnen sie emsig an einem virtuellen Netz, quasi ein URL-generiertes dynamisches Abbild des WWW.  Da das Web rasant wächst und viele Dokumente sich ständig ändern (denkt z.B. News-Dienste), bekommen die Crawler von einer weiteren Programmgruppe ständig Anweisungen, welche Seiten wann und wie oft aufgesucht werden sollen, um möglichst zeitnahe Suchantworten geben zu können.

Eine Indexer genannte weitere Servergruppe mit spezieller Indexier-Software sorgt dafür, dass alle von den Crawlern über Links besuchten Webseiten mit ihren charakteristischen Merkmalen wie Titel, Stichworte, Abstracts und bei Google auch sämtlichen Wörtern (Stoppworte wie „und“ u.a. sicher ausgenommen), nach bestimmten Vorgaben organisiert und abgespeichert werden: im sogenannten Lokalen Dateisystem/local store, einer  Riesenspeicher-Gruppe. Google gibt deren Größe mit hunderten Millarden gespeicherten Webseiten und über 100.000.000 Gigabyte an.

In diesen local stores sucht eine weitere Gruppe von mit wieder anderen Spezialsoftwarepaketen und Algorithmen ausgestatteten Servern, die Searcher, zu meinen und Deinen Suchanfragen, liebe/r Leser/in, relevante Dokumente. Und wir sind anspruchsvoll: die treffsichere Antwort soll möglichst im Bruchteil einer Sekunde am Bildschirm erscheinen!

Das ist in groben Zügen die Architektur und Arbeitsweise  von Suchmaschinen. Vielleicht habt Ihr schon Bilder von den riesigen Gebäuden gesehen, in denen die Großen der Branche ihre Suchmaschinen  an vielen Standorten des Globus betreiben. Und vielleicht habt Ihr schon gelesen, dass der Stromverbrauch so eines Standortes dem einer mittelgroßen Stadt entspricht…

Wer sich schon jetzt bei Google informieren will, kann das z.B. über die Adresse https://www.google.com/search/howsearchworks/ tun. Auch Tipps, z.B. wie man mittels Google´s webmaster tools verlangen kann, eine Website aus welchen Gründen auch immer nicht zu indexieren, findet Ihr bei: robots.txt. Es gibt auch die Möglichkeit, zu überprüfen, wann ein Crawler das letzte Mal meine Webseite besucht hat. Und vieles mehr…

 Was den Knowledge Graph, die Relevanz, das Ranking  und die verschiedenen Suchalgorithmen betrifft, will ich in einem weiteren Blog über das für uns Webseitenbetreiber so wichtige Thema der Suchmaschinen-Optimierung/SEO referieren.

Ausblick, Fortsetzung

Diesmal ging es um die meistgenutzte Suchmaschinenfunktion,  die Textsuche im WWW. Auch über viele andere Suchservices ließe sich berichten: Bilder und Videosuche oder Semantische Suche oder über die Zukunft des Suchens und Findens, über Spezial-und Metasuchmaschinen, über vertiefte Suche mit Booleschen Operatoren und erweiterten Suchformularen

Das will ich Euch in einem weiteren Blogbeitrag schreiben.

PS für meine österreichischen Leser/innen: vielleicht interessiert Ihr Euch, wie es in Österreich in punkto Digitalisierung weitergehen soll. Die Digital Road Map Austria der Regierung gibt darauf Anworten…

Dann bis zum nächsten Mal, liebe Besucher/innen!

Suchmaschinen: wie ich mich darüber schlau mach(t)e;
Euer Blogger Burkhard Zimmermann
Facebooktwittermail