• Herzlich Willkommen!
    Schön, dass Sie zu uns gefunden haben.

    Wir sind das Erwerbslosen Forum Deutschland und befassen uns vor allem mit den Problemen bei Erwerbslosigkeit, Armut und gesellschaftlicher Benachteiligung.
    Das wichtigste Ziel ist, dass jeder zu seinem Recht kommt und diese nicht von den Behörden vorenthalten werden. Dazu gehört auch, dass Sie Ihre gewonnenen Informationen an andere weiter tragen. Bei den vielen völlig willkürlichen Handlungen von Behörden - und besonders bei Hartz IV - müssen Betroffene wissen, wie sie sich erfolgreich wehren können.
    Was man als Erwerbsloser zur Abwehr von Behördenwillkür alles wissen muss.
    Genauso wichtig ist es, dass Sie mit dazu beitragen, dass dieses unsägliche Gesetz Hartz IV überwunden werden muss. Deshalb brauchen wir auch aktive Unterstützer, die durch zivilen Ungehorsam, bei Demonstrationen etc. sich für diese Ziele einsetzen. Hierzu geben wir regelmäßig Informationen heraus.
    Mit diesen Zielen haben wir hier viele Menschen versammeln können, welche offen über sich diskutieren und ihre eigenen Erfahrungen hilfsbereit anderen mitteilen. Am besten ist es, wenn Sie sich kurz fürs Forum registrieren und Ihre Probleme, Meinungen und Ideen schreiben Das geht ganz schnell, ist kostenlos und bringt Ihnen nur Vorteile. So werden Sie sicherlich auf Gleichgesinnte stoßen, welche gerne versuchen, Ihnen weiter zu helfen, damit Sie den richtigen Weg finden. Ebenso habe Sie damit Zugriff auf unsere Vorlagen zu Widersprüchen, Klagebeispiele etc... Hier können Sie sich registrieren.

    Hoffentlich finden Sie, was Sie suchen.

Wer kennt sich mit php aus????DRINGEND

Status
Nicht offen für weitere Antworten.

edy

Redaktion

Mitarbeiter
Redaktion
  Th.Starter/in  
Mitglied seit
16 Jun 2005
Beiträge
1.306
Gefällt mir
6
#1
"Robot.txt" Wie kann google "ausgesperrt" werden"? Bitte kontaktet dringend den Martin: 0228-2495594
 

Arania

Elo-User/in

Mitglied seit
5 Sep 2005
Beiträge
17.180
Gefällt mir
178
#2
Hängt man einer URL z.B. den Parameter googlebot=nocrawl an ( http://.Name der Seite.de/xy.php?googlebot=nocrawl ), kann man mit einem entsprechenden Eintrag in der robots.txt den GoogleBot vom Indizieren dieser Seite abhalten:
User-agent: Googlebot
Disallow: *googlebot=nocrawl

Allerdings nimmt Google das übel, Ihr habt ja auch Werbung hier von denen
 

Martin Behrsing

Mitarbeiter
Redaktion
Mitglied seit
16 Jun 2005
Beiträge
22.327
Gefällt mir
4.162
#3
was kann man denn machen, wenn google unsere Seiten abspidert und soviele php-Prozesse auslöst, dass der Server völlig überlastet ist und deswegen abgestellt werden musste.
 

Arania

Elo-User/in

Mitglied seit
5 Sep 2005
Beiträge
17.180
Gefällt mir
178
#4
schau mal ins Logfile was da steht in welchen Abständen Google die Bots schickt, das sollte alle 60 Sekunden passieren, also aussperren kann man die Bots ganz, ich schaue mal eben nach ob man die Zeitabstände ändern kann!!

Und mal die Logfiles löschen das entlastet meistens auch schon etwas
 

Arania

Elo-User/in

Mitglied seit
5 Sep 2005
Beiträge
17.180
Gefällt mir
178
#8
er meint wahrscheinlich aussperren wie beschrieben :kinn:

Es gibt aber auch die Möglichkeit die Software zu optimieren, dann müsste sie die Bots aushalten können, es muß da einen Flaschenhals geben der den Datenzufluss oder Abruf bremst, es könnte auch an fehlendem RAM liegen, das wäre ein Serverproblem, ist jetzt nicht einfach so eine Ferndiagnose zu stellen, also die Googlebots aussperren wäre eine Möglichkeit, allerdings wird man dann auch nicht mehr in der Suchmaschine gefunden was für Leute die Hilfe bei HARTZ IV suchen sicher auch nicht so optimal wäre
 
E

ExitUser

Gast
#9
Und Google kann dann auch böse werden. Ich hatte die von Pagix verlinkte Methode auch schon einmal eingesetzt, aber schnell wieder verworfen, weil meine Internetseiten nach ca. einer Woche nicht mehr gelistet waren.
Eine Möglichkeit bietet auch noch die .htaccess Datei, in die man mit Hilfe eines Disallow die IP des Googlebot sperren kann. Aber, wie gesagt, das kann riskant sein, weil die Seite dann irgendwann nicht mehr gefunden wird.
Evtl. hilft es wirklich, die Datenmenge abzuspecken und die logfiles zu verkleinern oder ganz zu leeren.
 
Mitglied seit
19 Jun 2005
Beiträge
795
Gefällt mir
4
#11
Da ich ja keine so richtige Ahnung habe, habe ich mir mal die robots.txt bei uns angeschaut, die unser Admin da eingebaut hat.

Dort sind diverse Verzeichnisse per Disallow auskommentiert. Hilfts wem?
 
E

ExitUser

Gast
#12
Man kann damit tatsächlich verschiedene Verzeichnisse und Dateien für den Zugriff sperren. Aber die robots.txt ist nie ganz sicher. Sie soll nur einen Hinweis geben, dass bestimmte Verzeichnisse nicht gelistet werden sollen, aber die Suchmaschinen müssen sich nicht daran halten. Das läßt sich schnell umgehen.
Eine .htaccess ist da wesentlich effektiver, weil der Apache Server von vornherein einen Zugriff für bestimmte IP's gar nicht erst zuläßt. Daran beißen sich die Roboter die Zähne aus.
 
Mitglied seit
11 Nov 2005
Beiträge
10
Gefällt mir
0
#13
User-agent: *

Disallow: /phpBB2/
Disallow: /phpBB2/login.php
Disallow: /phpBB2/area51/*
Disallow: /phpBB2/statistics.php
Disallow: /phpBB2/admin/
Disallow: /phpBB2/db/
Disallow: /phpBB2/images/
Disallow: /phpBB2/includes/
Disallow: /phpBB2/language/
Disallow: /phpBB2/templates/
Disallow: /phpBB2/config.php
Disallow: /phpBB2/profile.php
Disallow: /phpBB2/groupcp.php
Disallow: /phpBB2/memberlist.php
Disallow: /phpBB2/modcp.php
Disallow: /phpBB2/posting.php
Disallow: /phpBB2/privmsg.php
Disallow: /phpBB2/viewonline.php
Disallow: /phpBB2/faq.php
Disallow: /phpBB2/ptopic*.html$
Disallow: /phpBB2/ntopic*.html$
Disallow: /phpBB2/ftopic*asc*.html$

phpBB2/ anpassen
 

Arania

Elo-User/in

Mitglied seit
5 Sep 2005
Beiträge
17.180
Gefällt mir
178
#14
Aber wie auch schon von einigen anderen bemerkt fliegt man dann bei Google aus dem Suchindex, ich weiß nicht ob das für das Forum gut ist
 

Martin Behrsing

Mitarbeiter
Redaktion
Mitglied seit
16 Jun 2005
Beiträge
22.327
Gefällt mir
4.162
#15
habe google erstmal ausgesperrt und nächste Woche noch mal probieren. Aber jetzt über die Pfingsttage und während der Demo darf der Server nicht ausfallen
 

Arania

Elo-User/in

Mitglied seit
5 Sep 2005
Beiträge
17.180
Gefällt mir
178
#16
Also wie gesagt es liegt nicht nur an den Google-Bots, meine Meinung, ich glaube der Server ist durch andere Dinge überlastet und hat einen Flaschenhals, aber das hat sicher Zeit bis nächste Woche.

Viel Erfolg für morgen!! :daumen: :daumen: :daumen:
 

oc2pus

Elo-User/in

Mitglied seit
26 Apr 2006
Beiträge
19
Gefällt mir
0
#17
Hallo zusammen!

Die robots.txt ist dafür verantwortlich, ein Verzeichnis vor den Spidern zu schützen, das stimmt schon, aber... Google-Bots kann man leider nicht wirklich aussperren, oder im umgekehrten Falle manipulieren.
Das hängt sehr stark mit der Programmierung der Bots zusammen, die zu den besten der Welt gehören, wenn sieesnicht gar sind.
Und es stimmt tatsächlich, dass googles kleine Drohnen sehr aggressiv werden, wenn sie nicht bekommen, was sie wollen. Das führt dann tatsächlich bis hin zur Sperrung in der Suchmaschine selbst.

Google "gehört" ja quasi mittlerweile das Internet, so schade das für diesen Server hier auch sein mag.
 

Admin2

Mitarbeiter
Administrator
Mitglied seit
1 Jul 2007
Beiträge
5.009
Gefällt mir
2.661
#18
Was man beim Aufräumen doch für Schätzchen findet :icon_mrgreen:

Allerdings soll einiges hier im Thread doch einmal berichtigt dargestellt werden.

  1. Es ist richtig, dass man mit der robots.txt Suchmaschinen, Crawler und Spider beeinflussen und aussperren kann.
  2. Man muss dabei aber auch beachten, dass dies nur bei seriösen Suchmaschinen etc, der Fall ist bzw sich auswirkt, denn nur die halten sich auch an diese Einstellungen.
  3. für diese seriösen *.Bots sollte man dort ein Intervall von 1 bis 2 Minuten angeben, das die Zugrffshäufigkeit angibt. Allerdings umgehen Suchmaschinen diese Einstellungen gerne indem ein 60 Sekundenintervall einfach mit mehreren Suchclients ausgeführt wird und bei der aktuellen Vielfalt an Suchbots die Performance großer Foren schwer beeinträchtigen kann.

http://webmasterparadies.de/webmasterwissen/197-robotstxt-10-fehler-die-sie-vermeiden-sollten.html

Was dann!?
Die primitiven Datensauger "BadBots" genannt einfach, nachhaltig und effektiv aussperren!
Hier eine kleine, nicht als einzige "Wahrheit" zu sehende Anleitung.
  • Große Foren sollten niemals auf Servern liegen deren Ressourcen geteilt werden müssen.
  • Man muss die Guten- von den bösen Bots trennen und die Bösen per Firewall dauerhaft aussperren. dabei ist eine Firewall zu bevorzugen die nicht auf dem Server läuft, wie das bezügliche Forum. Wer allerdings vorläufig eine kurzfristige Lösung benötigt kann auch eine .htaccess ins Hauptverzeichnis des Forums legen, oder eine bereits vorhandene, um folgenden Eintrag ergänzen.
    Bitte beachten: Die hier verwendeten IPs von Google sind nur als Beispiel zu sehen! Wer z.B. Google, also seriöse Suchmaschinen aussperrt, der wird bald auch nicht mehr gefunden werden.

    <FilesMatch "(.*)">
    #Zugriffsreichenfolge festlegen und
    Order Allow,Deny
    #auf alles erst mal erlauben
    Allow from all
    #Sperre(n) festlegen
    #Folgendes sperrt diesen einen Clent von Google aus
    Deny from 66.249.64.26
    #Sperrt alle Adressen von Google in diesem IP-Bereich aus
    Deny from 66.249.0.0/16
    # Sperrt den IP-Bereich von hier derzeit sehr aggressiv tätigen Such-Botclients aus
    # die die Robots.txt ignorieren und Inhalte ganzer Threads im Sekundentakt abrufen
    Deny from 144.76.0.0/16
    #....
    </FilesMatch>

Seriöse Suchmaschinen (Bots, Spider, Crawler) erkennt man erstens am angegebenen "UserAgent" (Bei google z.B. "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)") und daran, dass sie zuerst die Robots.txt abrufen und sich nachfolgend an die Inhalte dort halten.

Die anderen sind schnellstens daran zu erkennen, dass sie sich eben nicht an die Inhalte der Robots.txt halten. dass sie Seiten direkt und in schneller Folge abrufen.

Normale User und Gäste einer Site erkennt man in den Logfiles daran, dass sie niemals Seiten ohne Inhalte wie Seitengrafiken, die dazugehörigen (Java)Scripte und -css Dateien abrufen. Terrorbots hingegen rufen Seiten/Thread/Postings in schneller Folge und direkt, also ohne zuvor angemerktes "Zubehör" ab.
Ebenso fälschen sie zum Teil den Useragent (UA) und geben sich z.B. als Google aus.
Darum prüfe man tunlichst auch per "whois" wenn ein Google, oder MSN, oder Bing, oder Facebook (...) UserAgent im Zusammenhang mit anderen, als den öffentlich bekannten IPs verwendet wird.

Weiteres gerne auf Nachfrage :smile:
 
Status
Nicht offen für weitere Antworten.
Oben Unten