Wer kennt sich mit php aus????DRINGEND

Besucher und registrierte Nutzer in diesem Thema...

Status

Dieses Thema ist geschlossen.
Geschlossene Themen können, müssen aber nicht, veraltete oder unrichtige Informationen enthalten.
Bitte erkundige dich im Forum bevor du eigenes Handeln auf Information aus geschlossenen Themen aufbaust.

Themenstarter können ihre Themen erneut öffnen lassen indem sie sich hier melden...

edy

Redaktion
Startbeitrag
Mitglied seit
16 Juni 2005
Beiträge
1.239
Bewertungen
6
"Robot.txt" Wie kann google "ausgesperrt" werden"? Bitte kontaktet dringend den Martin: 0228-2495594
 

Arania

StarVIP Nutzer*in
Mitglied seit
5 September 2005
Beiträge
17.178
Bewertungen
178
Hängt man einer URL z.B. den Parameter googlebot=nocrawl an (, kann man mit einem entsprechenden Eintrag in der robots.txt den GoogleBot vom Indizieren dieser Seite abhalten:
User-agent: Googlebot
 

Martin Behrsing

Redaktion
Mitglied seit
16 Juni 2005
Beiträge
21.611
Bewertungen
4.296
was kann man denn machen, wenn google unsere Seiten abspidert und soviele php-Prozesse auslöst, dass der Server völlig überlastet ist und deswegen abgestellt werden musste.
 

Arania

StarVIP Nutzer*in
Mitglied seit
5 September 2005
Beiträge
17.178
Bewertungen
178
schau mal ins Logfile was da steht in welchen Abständen Google die Bots schickt, das sollte alle 60 Sekunden passieren, also aussperren kann man die Bots ganz, ich schaue mal eben nach ob man die Zeitabstände ändern kann!!

Und mal die Logfiles löschen das entlastet meistens auch schon etwas
 

Arania

StarVIP Nutzer*in
Mitglied seit
5 September 2005
Beiträge
17.178
Bewertungen
178
er meint wahrscheinlich aussperren wie beschrieben :kinn:

Es gibt aber auch die Möglichkeit die Software zu optimieren, dann müsste sie die Bots aushalten können, es muß da einen Flaschenhals geben der den Datenzufluss oder Abruf bremst, es könnte auch an fehlendem RAM liegen, das wäre ein Serverproblem, ist jetzt nicht einfach so eine Ferndiagnose zu stellen, also die Googlebots aussperren wäre eine Möglichkeit, allerdings wird man dann auch nicht mehr in der Suchmaschine gefunden was für Leute die Hilfe bei HARTZ IV suchen sicher auch nicht so optimal wäre
 
E

ExitUser

Gast
Und Google kann dann auch böse werden. Ich hatte die von Pagix verlinkte Methode auch schon einmal eingesetzt, aber schnell wieder verworfen, weil meine Internetseiten nach ca. einer Woche nicht mehr gelistet waren.
Eine Möglichkeit bietet auch noch die .htaccess Datei, in die man mit Hilfe eines Disallow die IP des Googlebot sperren kann. Aber, wie gesagt, das kann riskant sein, weil die Seite dann irgendwann nicht mehr gefunden wird.
Evtl. hilft es wirklich, die Datenmenge abzuspecken und die logfiles zu verkleinern oder ganz zu leeren.
 

Ralf Hagelstein

Priv. Nutzer*in
Mitglied seit
19 Juni 2005
Beiträge
790
Bewertungen
4
Da ich ja keine so richtige Ahnung habe, habe ich mir mal die robots.txt bei uns angeschaut, die unser Admin da eingebaut hat.

Dort sind diverse Verzeichnisse per Disallow auskommentiert. Hilfts wem?
 
E

ExitUser

Gast
Man kann damit tatsächlich verschiedene Verzeichnisse und Dateien für den Zugriff sperren. Aber die robots.txt ist nie ganz sicher. Sie soll nur einen Hinweis geben, dass bestimmte Verzeichnisse nicht gelistet werden sollen, aber die Suchmaschinen müssen sich nicht daran halten. Das läßt sich schnell umgehen.
Eine .htaccess ist da wesentlich effektiver, weil der Apache Server von vornherein einen Zugriff für bestimmte IP's gar nicht erst zuläßt. Daran beißen sich die Roboter die Zähne aus.
 

Reinhard Lang

Neu hier...
Mitglied seit
11 November 2005
Beiträge
10
Bewertungen
0
User-agent: *

Disallow: /phpBB2/
Disallow: /phpBB2/login.php
Disallow: /phpBB2/area51/*
Disallow: /phpBB2/statistics.php
Disallow: /phpBB2/admin/
Disallow: /phpBB2/db/
Disallow: /phpBB2/images/
Disallow: /phpBB2/includes/
Disallow: /phpBB2/language/
Disallow: /phpBB2/templates/
Disallow: /phpBB2/config.php
Disallow: /phpBB2/profile.php
Disallow: /phpBB2/groupcp.php
Disallow: /phpBB2/memberlist.php
Disallow: /phpBB2/modcp.php
Disallow: /phpBB2/posting.php
Disallow: /phpBB2/privmsg.php
Disallow: /phpBB2/viewonline.php
Disallow: /phpBB2/faq.php
Disallow: /phpBB2/ptopic*.html$
Disallow: /phpBB2/ntopic*.html$
Disallow: /phpBB2/ftopic*asc*.html$

 

Arania

StarVIP Nutzer*in
Mitglied seit
5 September 2005
Beiträge
17.178
Bewertungen
178
Aber wie auch schon von einigen anderen bemerkt fliegt man dann bei Google aus dem Suchindex, ich weiß nicht ob das für das Forum gut ist
 

Martin Behrsing

Redaktion
Mitglied seit
16 Juni 2005
Beiträge
21.611
Bewertungen
4.296
habe google erstmal ausgesperrt und nächste Woche noch mal probieren. Aber jetzt über die Pfingsttage und während der Demo darf der Server nicht ausfallen
 

Arania

StarVIP Nutzer*in
Mitglied seit
5 September 2005
Beiträge
17.178
Bewertungen
178
Also wie gesagt es liegt nicht nur an den Google-Bots, meine Meinung, ich glaube der Server ist durch andere Dinge überlastet und hat einen Flaschenhals, aber das hat sicher Zeit bis nächste Woche.

Viel Erfolg für morgen!! :daumen: :daumen: :daumen:
 

oc2pus

Elo-User*in
Mitglied seit
26 April 2006
Beiträge
19
Bewertungen
0
Hallo zusammen!

Die robots.txt ist dafür verantwortlich, ein Verzeichnis vor den Spidern zu schützen, das stimmt schon, aber... Google-Bots kann man leider nicht wirklich aussperren, oder im umgekehrten Falle manipulieren.
Das hängt sehr stark mit der Programmierung der Bots zusammen, die zu den besten der Welt gehören, wenn sieesnicht gar sind.
Und es stimmt tatsächlich, dass googles kleine Drohnen sehr aggressiv werden, wenn sie nicht bekommen, was sie wollen. Das führt dann tatsächlich bis hin zur Sperrung in der Suchmaschine selbst.

Google "gehört" ja quasi mittlerweile das Internet, so schade das für diesen Server hier auch sein mag.
 

Admin2

Administrator
Mitglied seit
1 Juli 2007
Beiträge
3.874
Bewertungen
11.236
Was man beim Aufräumen doch für Schätzchen findet :icon_mrgreen:

Allerdings soll einiges hier im Thread doch einmal berichtigt dargestellt werden.

  1. Es ist richtig, dass man mit der robots.txt Suchmaschinen, Crawler und Spider beeinflussen und aussperren kann.
  2. Man muss dabei aber auch beachten, dass dies nur bei seriösen Suchmaschinen etc, der Fall ist bzw sich auswirkt, denn nur die halten sich auch an diese Einstellungen.
  3. für diese seriösen *.Bots sollte man dort ein Intervall von 1 bis 2 Minuten angeben, das die Zugrffshäufigkeit angibt. Allerdings umgehen Suchmaschinen diese Einstellungen gerne indem ein 60 Sekundenintervall einfach mit mehreren Suchclients ausgeführt wird und bei der aktuellen Vielfalt an Suchbots die Performance großer Foren schwer beeinträchtigen kann.

https://webmasterparadies.de/webmasterwissen/197-robotstxt-10-fehler-die-sie-vermeiden-sollten.html

Was dann!?
Die primitiven Datensauger "BadBots" genannt einfach, nachhaltig und effektiv aussperren!
Hier eine kleine, nicht als einzige "Wahrheit" zu sehende Anleitung.
  • Große Foren sollten niemals auf Servern liegen deren Ressourcen geteilt werden müssen.
  • Man muss die Guten- von den bösen Bots trennen und die Bösen per Firewall dauerhaft aussperren. dabei ist eine Firewall zu bevorzugen die nicht auf dem Server läuft, wie das bezügliche Forum. Wer allerdings vorläufig eine kurzfristige Lösung benötigt kann auch eine .htaccess ins Hauptverzeichnis des Forums legen, oder eine bereits vorhandene, um folgenden Eintrag ergänzen.
    Bitte beachten: Die hier verwendeten IPs von Google sind nur als Beispiel zu sehen! Wer z.B. Google, also seriöse Suchmaschinen aussperrt, der wird bald auch nicht mehr gefunden werden.

    <FilesMatch "(.*)">
    #Zugriffsreichenfolge festlegen und
    Order Allow,Deny
    #auf alles erst mal erlauben
    Allow from all
    #Sperre(n) festlegen
    #Folgendes sperrt diesen einen Clent von Google aus
    Deny from 66.249.64.26
    #Sperrt alle Adressen von Google in diesem IP-Bereich aus
    Deny from 66.249.0.0/16
    # Sperrt den IP-Bereich von hier derzeit sehr aggressiv tätigen Such-Botclients aus
    # die die Robots.txt ignorieren und Inhalte ganzer Threads im Sekundentakt abrufen
    Deny from 144.76.0.0/16
    #....
    </FilesMatch>

Seriöse Suchmaschinen (Bots, Spider, Crawler) erkennt man erstens am angegebenen "UserAgent" (Bei google z.B. "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)") und daran, dass sie zuerst die Robots.txt abrufen und sich nachfolgend an die Inhalte dort halten.

Die anderen sind schnellstens daran zu erkennen, dass sie sich eben nicht an die Inhalte der Robots.txt halten. dass sie Seiten direkt und in schneller Folge abrufen.

Normale User und Gäste einer Site erkennt man in den Logfiles daran, dass sie niemals Seiten ohne Inhalte wie Seitengrafiken, die dazugehörigen (Java)Scripte und -css Dateien abrufen. Terrorbots hingegen rufen Seiten/Thread/Postings in schneller Folge und direkt, also ohne zuvor angemerktes "Zubehör" ab.
Ebenso fälschen sie zum Teil den Useragent (UA) und geben sich z.B. als Google aus.
Darum prüfe man tunlichst auch per "whois" wenn ein Google, oder MSN, oder Bing, oder Facebook (...) UserAgent im Zusammenhang mit anderen, als den öffentlich bekannten IPs verwendet wird.

Weiteres gerne auf Nachfrage :smile:
 
Status

Dieses Thema ist geschlossen.
Geschlossene Themen können, müssen aber nicht, veraltete oder unrichtige Informationen enthalten.
Bitte erkundige dich im Forum bevor du eigenes Handeln auf Information aus geschlossenen Themen aufbaust.

Themenstarter können ihre Themen erneut öffnen lassen indem sie sich hier melden...
Oben Unten