2006年09月25日

最近のクローラは…

先日、Baiduspider に関する記事を書いたが、最近他にもよくわからないクローラが回ってくる。

User Agent が「Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.0.3705; .NET CLR 1.1.4322)」という一見クローラには見えないアクセスもある。このクローラの IP アドレスは 208.66.195.X と 208.66.194.X のアドレスだ。ブラウザのふりをしているが明らかにクローラの動きをしている。

また、User Agent にタグを書いているクローラもあらわれた。アクセス解析のページに認証を設けていないサイトが多く、このようなアクセス解析ページから大量にリンクをもらうと言った手法だろうか。

BecomeBot もそうだが、REFERRER を残していくので、クローラなのか人間のアクセスなのかなかなか判断がしにくい。

robots.txt でクローラをはじく方法もあるが、どうも robots.txt は限界に来ているような気がする。hosts ファイルのイメージだろうか。hosts ファイルでドメインの管理は限界に来て DNS に移行された。robots.txt もいちいち全サイトに導入するのは大変なので、robots.txt を一元管理できる仕組みが欲しいところだ。

投稿者 Su-Jine : 2006年09月25日 15:26

Baiduspider+(+http://www.baidu. com/search/spider.htm)
 Su-Jine の独り言
ポイ探株式会社化

トラックバック

このエントリーのトラックバックURL:

コメント コメントしてください




保存しますか?