Semalt bietet Tipps zum Umgang mit Bots, Spinnen und Crawlern

Mit der .htaccess-Datei können Webmaster nicht nur suchmaschinenfreundliche URLs erstellen, sondern auch bestimmte Bots daran hindern, auf ihre Website zuzugreifen. Eine Möglichkeit, diese Roboter zu blockieren, ist die Datei robots.txt. Ross Barber, der Semalt Customer Success Manager, gibt jedoch an, dass einige Crawler diese Anfrage ignoriert haben. Eine der besten Möglichkeiten besteht darin, die .htaccess-Datei zu verwenden, um zu verhindern, dass sie Ihre Inhalte indizieren.

Was sind diese Bots?

Sie sind eine Art von Software, die von Suchmaschinen verwendet wird, um neue Inhalte zu Indexierungszwecken aus dem Internet zu löschen.

Sie führen folgende Aufgaben aus:

  • Besuchen Sie Webseiten, auf die Sie verlinkt haben
  • Überprüfen Sie Ihren HTML-Code auf Fehler
  • Sie speichern, auf welche Webseiten Sie verlinken, und sehen, welche Webseiten mit Ihren Inhalten verknüpft sind
  • Sie indizieren Ihren Inhalt

Einige Bots sind jedoch böswillig und durchsuchen Ihre Website nach E-Mail-Adressen und Formularen, die normalerweise zum Senden unerwünschter Nachrichten oder Spam verwendet werden. Andere suchen sogar nach Sicherheitslücken in Ihrem Code.

Was wird benötigt, um Webcrawler zu blockieren?

Bevor Sie die .htaccess-Datei verwenden, müssen Sie Folgendes überprüfen:

1. Ihre Site muss auf einem Apache-Server ausgeführt werden. Heutzutage bieten Ihnen selbst Webhosting-Unternehmen, die in ihrem Job halbwegs anständig sind, Zugriff auf die erforderliche Datei.

2. Sie sollten Zugriff auf die Raw-Server-Protokolle Ihrer Website haben, damit Sie feststellen können, welche Bots Ihre Webseiten besucht haben.

Beachten Sie, dass Sie nur dann alle schädlichen Bots blockieren können, wenn Sie alle blockieren, auch nicht diejenigen, die Sie für hilfreich halten. Täglich tauchen neue Bots auf und ältere werden geändert. Am effizientesten ist es, Ihren Code zu sichern und es Bots schwer zu machen, Sie zu spammen.

Bots identifizieren

Bots können entweder anhand der IP-Adresse oder anhand ihrer "User Agent String" identifiziert werden, die sie in den HTTP-Headern senden. Zum Beispiel verwendet Google "Googlebot".

Möglicherweise benötigen Sie diese Liste mit 302 Bots, wenn Sie bereits den Namen des Bots haben, den Sie mit .htaccess fernhalten möchten

Eine andere Möglichkeit besteht darin, alle Protokolldateien vom Server herunterzuladen und mit einem Texteditor zu öffnen. Ihr Speicherort auf dem Server kann sich je nach Konfiguration Ihres Servers ändern. Wenn Sie sie nicht finden können, wenden Sie sich an Ihren Webhost.

Wenn Sie wissen, welche Seite besucht wurde oder wann Sie sie besuchen, ist es einfacher, mit einem unerwünschten Bot zu kommen. Sie können die Protokolldatei mit diesen Parametern durchsuchen.

Einmal haben Sie notiert, welche Bots Sie blockieren müssen. Sie können sie dann in die .htaccess-Datei aufnehmen. Bitte beachten Sie, dass das Blockieren des Bots nicht ausreicht, um ihn zu stoppen. Es kann mit einer neuen IP oder einem neuen Namen zurückkommen.

Wie man sie blockiert

Laden Sie eine Kopie der .htaccess-Datei herunter. Erstellen Sie bei Bedarf Backups.

Methode 1: Blockieren durch IP

Dieses Code-Snippet blockiert den Bot unter Verwendung der IP-Adresse 197.0.0.1

Order Deny, Allow

Verweigern von 197.0.0.1

Die erste Zeile bedeutet, dass der Server alle Anforderungen blockiert, die den von Ihnen angegebenen Mustern entsprechen, und alle anderen zulässt.

Die zweite Zeile weist den Server an, eine 403: verbotene Seite auszugeben

Methode 2: Blockieren durch Benutzeragenten

Am einfachsten ist es, die Rewrite-Engine von Apache zu verwenden

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

Die erste Zeile stellt sicher, dass das Umschreibemodul aktiviert ist. Zeile zwei ist die Bedingung, für die die Regel gilt. Das "F" in Zeile 4 weist den Server an, ein 403: Forbidden zurückzugeben, während das "L" bedeutet, dass dies die letzte Regel ist.

Anschließend laden Sie die .htaccess-Datei auf Ihren Server hoch und überschreiben die vorhandene. Mit der Zeit müssen Sie die IP des Bots aktualisieren. Wenn Sie einen Fehler machen, laden Sie einfach das von Ihnen erstellte Backup hoch.

mass gmail