Was Ist Ein Suchmaschinenroboter?

Inhaltsverzeichnis:

Was Ist Ein Suchmaschinenroboter?
Was Ist Ein Suchmaschinenroboter?

Video: Was Ist Ein Suchmaschinenroboter?

Video: Was Ist Ein Suchmaschinenroboter?
Video: Wie funktioniert eine Suchmaschine? | Frag Fred | SRF Kids – Kindervideos 2024, November
Anonim

Der Suchmaschinen-Robot ist für das Crawlen von Webseiten verantwortlich. Das Programm liest automatisch Daten von allen Sites und registriert sie in einer für die Suchmaschine selbst verständlichen Form, damit das System später die für den Benutzer am besten geeigneten Ergebnisse anzeigt.

Was ist ein Suchmaschinenroboter?
Was ist ein Suchmaschinenroboter?

Funktionen

Alle indizierten Informationen werden in einer gemeinsamen Datenbank erfasst.

Ein Suchroboter ist ein Programm, das automatisch durch die Seiten des Internets reist, die erforderlichen Dokumente anfordert und die Struktur der gecrawlten Sites empfängt. Der Roboter wählt selbstständig die zu scannenden Seiten aus. In den meisten Fällen werden die zu scannenden Websites zufällig ausgewählt.

Bot-Typen

Ein nicht ordnungsgemäß funktionierender Roboter erhöht die Belastung des Netzwerks und des Servers erheblich, was dazu führen kann, dass die Ressource nicht verfügbar ist.

Jede Suchmaschine hat mehrere Programme, die Roboter genannt werden. Jeder von ihnen kann eine bestimmte Funktion erfüllen. Bei Yandex sind beispielsweise einige Roboter für das Scannen von RSS-Newsfeeds verantwortlich, was für die Indexierung von Blogs nützlich sein wird. Es gibt auch Programme, die nur nach Bildern suchen. Das Wichtigste ist jedoch der Indexierungs-Bot, der die Grundlage für jede Suche bildet. Es gibt auch einen schnellen Hilfsroboter, der entwickelt wurde, um nach Updates in Newsfeeds und Veranstaltungen zu suchen.

Scanvorgang

Eine andere Möglichkeit, das Crawlen von Inhalten zu verhindern, besteht darin, über das Registrierungsfeld Zugriff auf die Site zu erstellen.

Beim Besuch der Site durchsucht das Programm das Dateisystem auf das Vorhandensein von robots.txt-Anweisungsdateien. Wenn ein Dokument vorhanden ist, beginnt das Lesen der im Dokument geschriebenen Richtlinien. Robots.txt kann das Scannen bestimmter Seiten und Dateien auf der Website verbieten oder umgekehrt zulassen.

Der Scanvorgang hängt von der Art des Programms ab. Manchmal lesen Roboter nur die Seitentitel und einige Absätze. In einigen Fällen wird das gesamte Dokument je nach HTML-Markup gescannt, was auch als Mittel zur Angabe von Schlüsselsätzen dienen kann. Einige Programme sind auf versteckte oder Meta-Tags spezialisiert.

Zur Liste hinzufügen

Jeder Webmaster kann verhindern, dass die Suchmaschine Seiten durch die robots.txt oder das META-Tag crawlt. Außerdem kann der Site-Ersteller die Site manuell zur Indexierungswarteschlange hinzufügen, aber das Hinzufügen bedeutet nicht, dass der Robot die gewünschte Seite sofort crawlt. Um eine Site zur Warteschlange hinzuzufügen, bieten Suchmaschinen auch spezielle Schnittstellen. Das Hinzufügen einer Site beschleunigt den Indexierungsprozess erheblich. Auch für die schnelle Registrierung in einer Suchmaschine können Webanalysesysteme, Site-Verzeichnisse usw. verwendet werden.

Empfohlen: