久しぶりに、HTTP関連のログを眺めていました。
(管理者としてはダメダメですね、、、)
妙に多い、、、
60.28.17.39 – – [04/Feb/2007:04:27:22 +0900] “GET /*** HTTP/1.1” 200 7796 “-” “Baiduspider+(+http://www.baidu.com/search/spider_jp.html)”
んあ、、、baidu??
ばいどぅ〜??
うへ、百度かいな。
中国のGoogleなんていう紹介で、ちょっと前にニュースとかになっていましたねぇ。
なんかもう、百度の検索犬Baiduspider+が色々と発掘作業している模様。
robots.txtに従うそうで、、、
User-agent: baiduspider
Disallow: /
、、、でOK、、、では無いという情報もあるようで。
.htaccessに、、、
SetEnvIf User-Agent “Baiduspider” deny_user-agent
order allow,deny
allow from all
deny from env=deny_user-agent
するとか、、、
httpd.confに、、、
SetEnvIf User-Agent Baiduspider robots
Order deny,allow
Deny from env=robots
、、、しちゃうとか、という情報がありました。
検索してみると、やはり何処も「行儀の悪い検索ロボット」という意見で一致しているようです。
Analogで解析してみると、ここ一ヵ月の間で組織別レポートが約25%、ホストのリダイレクトレポートが約80%、ホスト不成功レポートが約30%、ブラウザレポートの“Baiduspider+”が約30%、、、ってな具合で百度からの検索ロボットの割り合いになってます。。。
攻撃くらってるのか、、、というと大袈裟ですが、もうそんな勢いですね。
コメント
robots.txtと.htaccessでdenyしてます。
しばらくerror logが目も当てられない位baiduであふれていましたが、robots.txtを理解してくださったのかぱったり来なくなりました。
どうもです。
今までは何かを拒否するような設定って、セキュリティ面で問題になる部分とスパム関連以外は凄くオープンだったのですが(笑)、baiduは旬かなと思って私もdenyしました。
初denyです(笑)