fragen zu htacces - hilfe beim blocken von crawlern

Question

fragen zu htacces - hilfe beim blocken von crawlern

Gefragt 22, Mär 2009 in Webseiten HTML von J32

Hallo,

seit einiger Zeit besucht mich ein crawler mit dem Namen radian6. Laut www.radian6.com/crawler hält sich der crawler an die robots.txt. Weit gefehlt die robots.txt wird ignoriert. Die Angaben das lediglich rss feeds gefetched werden ist ebenfalls falsch da radian6 noch nie meine rss gecrawlet hat dafür aber umso mehr meine einzelnen pages. Bei 30 bis 50 besuchen pro Tag geht mir da zuviel Traffic drauf. Da dieses Problem auch andere zu haben scheinen, habe ich einige Lösungen gefunden um radian per htaccess zu blocken.

Lösung 1

order allow,deny
deny from 142.166.0.0/16
deny from 207.179.0.0/16
allow from all

Hierzu habe ich eine Frage. Was bedeutet die /16 in dieser Lösung?
Da der Crawler von beiden Adressbereichen zu kommen scheint mag es sinnvoll sein den gesamten Bereich zu blockieren. Ich möchte jedoch nicht harmlose User/Besucher von meiner Webseite ausperren.

Lösung 2

RewriteCond %{HTTP_USER_AGENT} ^R6_
RewriteRule .* - [F]

Laut Autor dieser Lösung wird hier wohl der User Agent der mit R6_ startet auf eine error seite geleitet.

Da Radian scheinbar sehr hartnäckig ist, gab es user die beim blocken des UserAgents später besuch von radian6 unter einer anderen Signatur erhalten haben.

Zu welcher Lösung würdet ihr mir in dieser Situation raten. Ich persönlich habe keinen Plan. Und wie oben erwähnt wäre es nett wenn mir jemand erklären könnte was das /16 hinter der IP von Lösung 1 bedeutet.

Für eure Zeit bedanke ich mich schonmal

Gruß

J32

2 Antworten

Answer 1 · 2009-03-22T08:30:48+0000

Die /16 ist eine Kurzform für die Netzmaske 255.255.0.0; im Klartext heißt das, das nur die ersten 16 Bit (= die ersten beiden Zahlen) der angegeben IP-Adresse mit der Adresse des aufrufenden Clients verglichen werden, sprich es ist egal was die letzten beiden Zahlen für einen Wert haben.

Wenn der Crawler immer aus einem fixen Adressbereich kommt, und nicht z.B. aus dem Adresspool eines Providers, ist Methode 1 sicherlich die zuverlässigere, da Crawler und "Harvester" sich auch gerne als Internet Explorer oder ein anderer Browser ausgeben.

Methode 2 kann zusätzlich eingesetzt werden, man kann ja unter RewriteCond auch mehrere Bedingungen angeben mit dem Modifikator [OR] am Ende jeder RewriteCond-Zeile, das bewirkt daß die Bedingungen logisch ODER statt wie standardmäßig logisch UND verknüpft werden. Statt der ODER-Verknüpfung kann man auch den regulären Ausdruck so formulieren, daß er bei allen möglichen unerwünschten User-Agent-Zeichenketten einen Treffer liefert.

Answer 2 · 2009-03-22T09:34:51+0000

vielen dank für deine Antwort, die hat mir schon ein gutes Stück geholfen. Ich werde wohl erstmal auf Lösung 2 zurückgreifen und sehen wie weit mich das bringt. Wenn das fehlschlägt werde ich wohl oder übel die IP's blockieren.

fragen zu htacces - hilfe beim blocken von crawlern

2 Antworten

Deine Antwort

Beliebteste Themen