Erwerbslosen Forum Deutschland (ELO-Forum)
QR-Code des ELO-Forum Mach mit. klick mich....

Start > Erste Anlaufstelle... > Technische Mitteilungen, Fragen und Antworten -> Wer kennt sich mit php aus????DRINGEND


Technische Mitteilungen, Fragen und Antworten Boardmitteilungen und Kontakt zur Administration

Geehrte Leser,
Sie können sich
hier kostenfrei registrieren um unser Forum zu nutzen. Hilfe bei Ihren Problemen mit "HartzIV", z.B. ALGI, ALGII, Sozialhilfe usw. zu erhalten.
Diese Werbeeinblendung, der Nachfolgende und dieser Hinweistext entfallen dann. Auch bitten wir Sie, dieses Forum (elo-forum.org) in Ihrem AdBlocker, auf die Whitelist zu setzen, da wir die erzielten Einnahmen dafür benötigen, das Hilfeforum etc. - auch und gerade in Ihrem Interesse - weiterhin finanzieren zu können.



Antwort

 

LinkBack Themen-Optionen Thema bewerten Ansicht
Alt 01.06.2006, 13:18   #1
edy
Redaktion
 
Benutzerbild von edy
 
Registriert seit: 16.06.2005
Ort: Bonn
Beiträge: 1,306
edy ist positiv bekanntedy ist positiv bekanntedy ist positiv bekanntedy ist positiv bekanntedy ist positiv bekanntedy ist positiv bekannt
Standard Wer kennt sich mit php aus????DRINGEND

"Robot.txt" Wie kann google "ausgesperrt" werden"? Bitte kontaktet dringend den Martin: 0228-2495594
__

Links, unabhängig, aber freilich parteilich!
________________________________________
Alle von mir gemachten Aussagen und Antworten auf Fragen
entsprechen lediglich meiner persönlichen Meinung und stellen
keinerlei Rechtsberatung dar.
edy ist offline   Mit Zitat antworten
Alt 01.06.2006, 13:50   #2
Elo-User/in
 
Benutzerbild von Arania
 
Registriert seit: 05.09.2005
Beiträge: 17,199
Arania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer Mensch
Standard

Hängt man einer URL z.B. den Parameter googlebot=nocrawl an ( http://.Name der Seite.de/xy.php?googlebot=nocrawl ), kann man mit einem entsprechenden Eintrag in der robots.txt den GoogleBot vom Indizieren dieser Seite abhalten:
User-agent: Googlebot
Disallow: *googlebot=nocrawl

Allerdings nimmt Google das übel, Ihr habt ja auch Werbung hier von denen
__

Man trifft sich im Leben immer zweimal
Arania ist offline   Mit Zitat antworten
Alt 01.06.2006, 15:25   #3
Redaktion
 
Benutzerbild von Martin Behrsing
 
Registriert seit: 16.06.2005
Ort: Bonn
Beiträge: 22,280
Martin Behrsing Möchte sein Renommee nicht öffentlich anzeigen...
Standard

was kann man denn machen, wenn google unsere Seiten abspidert und soviele php-Prozesse auslöst, dass der Server völlig überlastet ist und deswegen abgestellt werden musste.
__

Gruß aus dem Rheinland

Martin

Spendenkonto: Trägerverein Erwerbslosen Forum Deutschland
Sparkasse Bonn BLZ 380 500 00 Konto 1900 0573 06
IBAN: DE95 3705 0198 1900 0573 06
BIC: COLSDE33XXX

Bitte beachten: Telefonate, PNs, E-Mails mit dem Erwerbslosen Forum Deutschland
Martin Behrsing ist offline   Mit Zitat antworten
Alt 01.06.2006, 15:59   #4
Elo-User/in
 
Benutzerbild von Arania
 
Registriert seit: 05.09.2005
Beiträge: 17,199
Arania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer Mensch
Standard

schau mal ins Logfile was da steht in welchen Abständen Google die Bots schickt, das sollte alle 60 Sekunden passieren, also aussperren kann man die Bots ganz, ich schaue mal eben nach ob man die Zeitabstände ändern kann!!

Und mal die Logfiles löschen das entlastet meistens auch schon etwas
__

Man trifft sich im Leben immer zweimal
Arania ist offline   Mit Zitat antworten
Alt 01.06.2006, 20:45   #5
Micxs
Gast
 
Beiträge: n/a
Standard

Eine ganz gute Erklärung findet sich =>
http://de.selfhtml.org/diverses/robots.htm

Ihr könntet z.b Verzeichnisse sperren in denen Google nix zu suchen hat

Grüße
Micxs
  Mit Zitat antworten
Alt 01.06.2006, 20:59   #6
Elo-User/in
 
Registriert seit: 18.07.2005
Beiträge: 465
pagix Möchte sein Renommee nicht öffentlich anzeigen...
Standard

Wenn alle Stricke reißen, dann so
pagix ist offline   Mit Zitat antworten
Alt 01.06.2006, 23:16   #7
Redaktion
 
Benutzerbild von Martin Behrsing
 
Registriert seit: 16.06.2005
Ort: Bonn
Beiträge: 22,280
Martin Behrsing Möchte sein Renommee nicht öffentlich anzeigen...
Standard

Zitat von pagix
Wenn alle Stricke reißen, dann so
und wie dann?
__

Gruß aus dem Rheinland

Martin

Spendenkonto: Trägerverein Erwerbslosen Forum Deutschland
Sparkasse Bonn BLZ 380 500 00 Konto 1900 0573 06
IBAN: DE95 3705 0198 1900 0573 06
BIC: COLSDE33XXX

Bitte beachten: Telefonate, PNs, E-Mails mit dem Erwerbslosen Forum Deutschland
Martin Behrsing ist offline   Mit Zitat antworten
Alt 02.06.2006, 00:20   #8
Elo-User/in
 
Benutzerbild von Arania
 
Registriert seit: 05.09.2005
Beiträge: 17,199
Arania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer Mensch
Standard

er meint wahrscheinlich aussperren wie beschrieben :icon_kinn:

Es gibt aber auch die Möglichkeit die Software zu optimieren, dann müsste sie die Bots aushalten können, es muß da einen Flaschenhals geben der den Datenzufluss oder Abruf bremst, es könnte auch an fehlendem RAM liegen, das wäre ein Serverproblem, ist jetzt nicht einfach so eine Ferndiagnose zu stellen, also die Googlebots aussperren wäre eine Möglichkeit, allerdings wird man dann auch nicht mehr in der Suchmaschine gefunden was für Leute die Hilfe bei HARTZ IV suchen sicher auch nicht so optimal wäre
__

Man trifft sich im Leben immer zweimal
Arania ist offline   Mit Zitat antworten
Alt 02.06.2006, 00:53   #9
Left of Life
Gast
 
Beiträge: n/a
Standard

Und Google kann dann auch böse werden. Ich hatte die von Pagix verlinkte Methode auch schon einmal eingesetzt, aber schnell wieder verworfen, weil meine Internetseiten nach ca. einer Woche nicht mehr gelistet waren.
Eine Möglichkeit bietet auch noch die .htaccess Datei, in die man mit Hilfe eines Disallow die IP des Googlebot sperren kann. Aber, wie gesagt, das kann riskant sein, weil die Seite dann irgendwann nicht mehr gefunden wird.
Evtl. hilft es wirklich, die Datenmenge abzuspecken und die logfiles zu verkleinern oder ganz zu leeren.
  Mit Zitat antworten
Alt 02.06.2006, 00:55   #10
Elo-User/in
 
Registriert seit: 18.06.2005
Ort: Hannover
Beiträge: 44
Clou2 ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Zitat von pagix
Wenn alle Stricke reißen, dann so



www.bad-robots.de
Clou2 ist offline   Mit Zitat antworten
Alt 02.06.2006, 01:06   #11
Elo-User/in
 
Benutzerbild von Ralf Hagelstein
 
Registriert seit: 20.06.2005
Ort: Hamburg
Beiträge: 795
Ralf Hagelstein ist zur Zeit noch ein unbeschriebenes Blatt
Standard

Da ich ja keine so richtige Ahnung habe, habe ich mir mal die robots.txt bei uns angeschaut, die unser Admin da eingebaut hat.

Dort sind diverse Verzeichnisse per Disallow auskommentiert. Hilfts wem?
__

"Zynisch ist nicht der Satiriker, sondern die Gesellschaft." Gabriella Lorenz

PeNG! Aktive Erwerbslose und Geringverdiener e.V.
Hamburg
Ralf Hagelstein ist offline   Mit Zitat antworten
Alt 02.06.2006, 01:10   #12
Left of Life
Gast
 
Beiträge: n/a
Standard

Man kann damit tatsächlich verschiedene Verzeichnisse und Dateien für den Zugriff sperren. Aber die robots.txt ist nie ganz sicher. Sie soll nur einen Hinweis geben, dass bestimmte Verzeichnisse nicht gelistet werden sollen, aber die Suchmaschinen müssen sich nicht daran halten. Das läßt sich schnell umgehen.
Eine .htaccess ist da wesentlich effektiver, weil der Apache Server von vornherein einen Zugriff für bestimmte IP's gar nicht erst zuläßt. Daran beißen sich die Roboter die Zähne aus.
  Mit Zitat antworten
Alt 02.06.2006, 02:31   #13
Elo-User/in
 
Registriert seit: 11.11.2005
Ort: Hamburg
Beiträge: 10
Reinhard Lang ist zur Zeit noch ein unbeschriebenes Blatt
Standard

User-agent: *

Disallow: /phpBB2/
Disallow: /phpBB2/login.php
Disallow: /phpBB2/area51/*
Disallow: /phpBB2/statistics.php
Disallow: /phpBB2/admin/
Disallow: /phpBB2/db/
Disallow: /phpBB2/images/
Disallow: /phpBB2/includes/
Disallow: /phpBB2/language/
Disallow: /phpBB2/templates/
Disallow: /phpBB2/config.php
Disallow: /phpBB2/profile.php
Disallow: /phpBB2/groupcp.php
Disallow: /phpBB2/memberlist.php
Disallow: /phpBB2/modcp.php
Disallow: /phpBB2/posting.php
Disallow: /phpBB2/privmsg.php
Disallow: /phpBB2/viewonline.php
Disallow: /phpBB2/faq.php
Disallow: /phpBB2/ptopic*.html$
Disallow: /phpBB2/ntopic*.html$
Disallow: /phpBB2/ftopic*asc*.html$

Zitat:
phpBB2/ anpassen
Reinhard Lang ist offline   Mit Zitat antworten
Alt 02.06.2006, 12:53   #14
Elo-User/in
 
Benutzerbild von Arania
 
Registriert seit: 05.09.2005
Beiträge: 17,199
Arania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer Mensch
Standard

Aber wie auch schon von einigen anderen bemerkt fliegt man dann bei Google aus dem Suchindex, ich weiß nicht ob das für das Forum gut ist
__

Man trifft sich im Leben immer zweimal
Arania ist offline   Mit Zitat antworten
Alt 02.06.2006, 19:01   #15
Redaktion
 
Benutzerbild von Martin Behrsing
 
Registriert seit: 16.06.2005
Ort: Bonn
Beiträge: 22,280
Martin Behrsing Möchte sein Renommee nicht öffentlich anzeigen...
Standard

habe google erstmal ausgesperrt und nächste Woche noch mal probieren. Aber jetzt über die Pfingsttage und während der Demo darf der Server nicht ausfallen
__

Gruß aus dem Rheinland

Martin

Spendenkonto: Trägerverein Erwerbslosen Forum Deutschland
Sparkasse Bonn BLZ 380 500 00 Konto 1900 0573 06
IBAN: DE95 3705 0198 1900 0573 06
BIC: COLSDE33XXX

Bitte beachten: Telefonate, PNs, E-Mails mit dem Erwerbslosen Forum Deutschland
Martin Behrsing ist offline   Mit Zitat antworten
Alt 02.06.2006, 20:32   #16
Elo-User/in
 
Benutzerbild von Arania
 
Registriert seit: 05.09.2005
Beiträge: 17,199
Arania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer MenschArania ist ein sehr geschätzer Mensch
Standard

Also wie gesagt es liegt nicht nur an den Google-Bots, meine Meinung, ich glaube der Server ist durch andere Dinge überlastet und hat einen Flaschenhals, aber das hat sicher Zeit bis nächste Woche.

Viel Erfolg für morgen!! :daumen: :daumen: :daumen:
__

Man trifft sich im Leben immer zweimal
Arania ist offline   Mit Zitat antworten
Alt 04.06.2006, 03:57   #17
Elo-User/in
 
Registriert seit: 26.04.2006
Ort: Herne
Beiträge: 19
oc2pus Möchte sein Renommee nicht öffentlich anzeigen...
Standard

Hallo zusammen!

Die robots.txt ist dafür verantwortlich, ein Verzeichnis vor den Spidern zu schützen, das stimmt schon, aber... Google-Bots kann man leider nicht wirklich aussperren, oder im umgekehrten Falle manipulieren.
Das hängt sehr stark mit der Programmierung der Bots zusammen, die zu den besten der Welt gehören, wenn sieesnicht gar sind.
Und es stimmt tatsächlich, dass googles kleine Drohnen sehr aggressiv werden, wenn sie nicht bekommen, was sie wollen. Das führt dann tatsächlich bis hin zur Sperrung in der Suchmaschine selbst.

Google "gehört" ja quasi mittlerweile das Internet, so schade das für diesen Server hier auch sein mag.
oc2pus ist offline   Mit Zitat antworten
Alt 28.08.2014, 12:41   #18
Administrator (Technik)
 
Benutzerbild von Admin2
 
Registriert seit: 01.07.2007
Ort: 4d:68:75:6e:68:66:72
Beiträge: 6,189
Admin2 hat bereits sehr viel geleistetAdmin2 hat bereits sehr viel geleistetAdmin2 hat bereits sehr viel geleistetAdmin2 hat bereits sehr viel geleistetAdmin2 hat bereits sehr viel geleistetAdmin2 hat bereits sehr viel geleistetAdmin2 hat bereits sehr viel geleistetAdmin2 hat bereits sehr viel geleistetAdmin2 hat bereits sehr viel geleistetAdmin2 hat bereits sehr viel geleistetAdmin2 hat bereits sehr viel geleistet
Standard AW: Wer kennt sich mit php aus????DRINGEND

Was man beim Aufräumen doch für Schätzchen findet

Allerdings soll einiges hier im Thread doch einmal berichtigt dargestellt werden.
  1. Es ist richtig, dass man mit der robots.txt Suchmaschinen, Crawler und Spider beeinflussen und aussperren kann.
  2. Man muss dabei aber auch beachten, dass dies nur bei seriösen Suchmaschinen etc, der Fall ist bzw sich auswirkt, denn nur die halten sich auch an diese Einstellungen.
  3. für diese seriösen *.Bots sollte man dort ein Intervall von 1 bis 2 Minuten angeben, das die Zugrffshäufigkeit angibt. Allerdings umgehen Suchmaschinen diese Einstellungen gerne indem ein 60 Sekundenintervall einfach mit mehreren Suchclients ausgeführt wird und bei der aktuellen Vielfalt an Suchbots die Performance großer Foren schwer beeinträchtigen kann.

http://webmasterparadies.de/webmaste...n-sollten.html

Was dann!?
Die primitiven Datensauger "BadBots" genannt einfach, nachhaltig und effektiv aussperren!
Hier eine kleine, nicht als einzige "Wahrheit" zu sehende Anleitung.
  1. Große Foren sollten niemals auf Servern liegen deren Ressourcen geteilt werden müssen.
  2. Man muss die Guten- von den bösen Bots trennen und die Bösen per Firewall dauerhaft aussperren. dabei ist eine Firewall zu bevorzugen die nicht auf dem Server läuft, wie das bezügliche Forum. Wer allerdings vorläufig eine kurzfristige Lösung benötigt kann auch eine .htaccess ins Hauptverzeichnis des Forums legen, oder eine bereits vorhandene, um folgenden Eintrag ergänzen.
    Bitte beachten: Die hier verwendeten IPs von Google sind nur als Beispiel zu sehen! Wer z.B. Google, also seriöse Suchmaschinen aussperrt, der wird bald auch nicht mehr gefunden werden.

    <FilesMatch "(.*)">
    #Zugriffsreichenfolge festlegen und
    Order Allow,Deny
    #auf alles erst mal erlauben
    Allow from all
    #Sperre(n) festlegen
    #Folgendes sperrt diesen einen Clent von Google aus
    Deny from 66.249.64.26
    #Sperrt alle Adressen von Google in diesem IP-Bereich aus
    Deny from 66.249.0.0/16
    # Sperrt den IP-Bereich von hier derzeit sehr aggressiv tätigen Such-Botclients aus
    # die die Robots.txt ignorieren und Inhalte ganzer Threads im Sekundentakt abrufen
    Deny from 144.76.0.0/16
    #....
    </FilesMatch>

Seriöse Suchmaschinen (Bots, Spider, Crawler) erkennt man erstens am angegebenen "UserAgent" (Bei google z.B. "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)") und daran, dass sie zuerst die Robots.txt abrufen und sich nachfolgend an die Inhalte dort halten.

Die anderen sind schnellstens daran zu erkennen, dass sie sich eben nicht an die Inhalte der Robots.txt halten. dass sie Seiten direkt und in schneller Folge abrufen.

Normale User und Gäste einer Site erkennt man in den Logfiles daran, dass sie niemals Seiten ohne Inhalte wie Seitengrafiken, die dazugehörigen (Java)Scripte und -css Dateien abrufen. Terrorbots hingegen rufen Seiten/Thread/Postings in schneller Folge und direkt, also ohne zuvor angemerktes "Zubehör" ab.
Ebenso fälschen sie zum Teil den Useragent (UA) und geben sich z.B. als Google aus.
Darum prüfe man tunlichst auch per "whois" wenn ein Google, oder MSN, oder Bing, oder Facebook (...) UserAgent im Zusammenhang mit anderen, als den öffentlich bekannten IPs verwendet wird.

Weiteres gerne auf Nachfrage

Geändert von Admin2 (28.08.2014 um 13:27 Uhr)
Admin2 ist offline   Mit Zitat antworten
Antwort

Stichworte
kennt, php, ausdringend

Themen-Optionen
Ansicht Thema bewerten
Thema bewerten:


Ähnliche Themen

Thema Autor Forum Antworten Letzter Beitrag
Hilfe wer kennt sich da noch aus????? sweet666joe Weiterbildung/Umschulung/Sinnlose Maßnahmen 11 10.01.2008 23:11
raus ALG II und nun Wohngeld?? Wer kennt sich aus?? Niveau67 ALG II 6 15.09.2007 13:38
Kennt sich jemand aus im Arbeitsrecht ??? n / a Allgemeine Fragen 17 22.11.2006 21:46
Hamburger Modell - wer kennt sich aus? ___________ Schwerbehinderte / Gesundheit / Rente 0 09.11.2006 19:59
Wer kennt sich mit Ich-AG und ALG II in NRW aus!!! Brauche H Annett26 Existenzgründung und Selbstständigkeit 1 21.07.2006 23:07


Es ist jetzt 04:31 Uhr.


Powered by vBulletin; (Deutsch)
Copyright ©2000 - 2016, Jelsoft Enterprises Ltd.
Template-Modifikationen durch TMS
ELO-Forum by Erwerbslosenforum Deutschland