Was man beim Aufräumen doch für Schätzchen findet
Allerdings soll einiges hier im Thread doch einmal berichtigt dargestellt werden.
- Es ist richtig, dass man mit der robots.txt Suchmaschinen, Crawler und Spider beeinflussen und aussperren kann.
- Man muss dabei aber auch beachten, dass dies nur bei seriösen Suchmaschinen etc, der Fall ist bzw sich auswirkt, denn nur die halten sich auch an diese Einstellungen.
- für diese seriösen *.Bots sollte man dort ein Intervall von 1 bis 2 Minuten angeben, das die Zugrffshäufigkeit angibt. Allerdings umgehen Suchmaschinen diese Einstellungen gerne indem ein 60 Sekundenintervall einfach mit mehreren Suchclients ausgeführt wird und bei der aktuellen Vielfalt an Suchbots die Performance großer Foren schwer beeinträchtigen kann.
https://webmasterparadies.de/webmasterwissen/197-robotstxt-10-fehler-die-sie-vermeiden-sollten.html Was dann!?
Die primitiven Datensauger "BadBots" genannt einfach, nachhaltig und effektiv aussperren!
Hier eine kleine, nicht als einzige "Wahrheit" zu sehende Anleitung.
- Große Foren sollten niemals auf Servern liegen deren Ressourcen geteilt werden müssen.
- Man muss die Guten- von den bösen Bots trennen und die Bösen per Firewall dauerhaft aussperren. dabei ist eine Firewall zu bevorzugen die nicht auf dem Server läuft, wie das bezügliche Forum. Wer allerdings vorläufig eine kurzfristige Lösung benötigt kann auch eine .htaccess ins Hauptverzeichnis des Forums legen, oder eine bereits vorhandene, um folgenden Eintrag ergänzen.
Bitte beachten: Die hier verwendeten IPs von Google sind nur als Beispiel zu sehen! Wer z.B. Google, also seriöse Suchmaschinen aussperrt, der wird bald auch nicht mehr gefunden werden.
<FilesMatch "(.*)">
#Zugriffsreichenfolge festlegen und
Order Allow,Deny
#auf alles erst mal erlauben
Allow from all
#Sperre
festlegen
#Folgendes sperrt diesen einen Clent von Google aus
Deny from 66.249.64.26
#Sperrt alle Adressen von Google in diesem IP-Bereich aus
Deny from 66.249.0.0/16
# Sperrt den IP-Bereich von hier derzeit sehr aggressiv tätigen Such-Botclients aus
# die die Robots.txt ignorieren und Inhalte ganzer Threads im Sekundentakt abrufen
Deny from 144.76.0.0/16
#....
</FilesMatch>
Seriöse Suchmaschinen (Bots, Spider, Crawler) erkennt man erstens am angegebenen "UserAgent" (Bei google z.B. "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)") und daran, dass sie zuerst die Robots.txt abrufen und sich nachfolgend an die Inhalte dort halten.
Die anderen sind schnellstens daran zu erkennen, dass sie sich eben nicht an die Inhalte der Robots.txt halten. dass sie Seiten direkt und in schneller Folge abrufen.
Normale User und Gäste einer Site erkennt man in den Logfiles daran, dass sie niemals Seiten ohne Inhalte wie Seitengrafiken, die dazugehörigen (Java)Scripte und -css Dateien abrufen. Terrorbots hingegen rufen Seiten/Thread/Postings in schneller Folge und direkt, also ohne zuvor angemerktes "Zubehör" ab.
Ebenso fälschen sie zum Teil den Useragent (UA) und geben sich z.B. als Google aus.
Darum prüfe man tunlichst auch per "whois" wenn ein Google, oder MSN, oder Bing, oder Facebook (...) UserAgent im Zusammenhang mit anderen, als den öffentlich bekannten IPs verwendet wird.
Weiteres gerne auf Nachfrage
