最近のクローラは…
先日、Baiduspider に関する記事を書いたが、最近他にもよくわからないクローラが回ってくる。
User Agent が「Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)」という一見クローラには見えないアクセスもある。このクローラの IP アドレスは 208.66.195.X と 208.66.194.X のアドレスだ。ブラウザのふりをしているが明らかにクローラの動きをしている。
また、User Agent にタグを書いているクローラもあらわれた。アクセス解析のページに認証を設けていないサイトが多く、このようなアクセス解析ページから大量にリンクをもらうと言った手法だろうか。
BecomeBot もそうだが、REFERRER を残していくので、クローラなのか人間のアクセスなのかなかなか判断がしにくい。
robots.txt でクローラをはじく方法もあるが、どうも robots.txt は限界に来ているような気がする。hosts ファイルのイメージだろうか。hosts ファイルでドメインの管理は限界に来て DNS に移行された。robots.txt もいちいち全サイトに導入するのは大変なので、robots.txt を一元管理できる仕組みが欲しいところだ。
投稿者 Su-Jine : 2006年09月25日 15:26
↑Baiduspider+(+http://www.baidu. com/search/spider.htm)
Su-Jine の独り言
↓ポイ探株式会社化
このエントリーのトラックバックURL: