2006年02月16日

メールアドレス収集ロボット

メールスパム対策用learn@su-jine.net と言うメールアドレスを公開したが、既にメールが到着するようになっている。このメールアドレスはスパムメールを受信するためだけのメールアドレスなので、受信したメールはスパム学習用ディレクトリに格納される。1 時間毎にこのディレクトリのメールを学習させているので、自動でスパムフィルタが賢くなっていく。

メールアドレス収集ロボットも、ロボット型検索エンジンと同様にクローラが Web ページを巡回して、ページ内にあるメールアドレスを収集していくわけだ。今回、learn@su-jine.net を公開してから約 10 日でスパムメールが到着した。メールアドレス巡回ロボットはロボット型検索エンジンと同等かそれ以上の収集力がありそうだ。

と言っても、検索エンジンのようにインデックス作業が必要ではなく、メールアドレスとリンクを抽出して、DB にインサートしていくだけだから作成するのはそれほど大変ではないだろう。robots.txt も読まないし、アクセスするタイミングも制御しないので、ロボット型検索エンジンのクローラよりもアクセス間隔が短い事が多い。メールアドレス収集ロボットで困るのは、メールアドレスを収集されることよりも、短い時間に大量にアクセスしてくることだ。1 秒間に大量のアクセスをしてくるのはたいていメールアドレス収集ロボットだろう。User-Agent も普通のブラウザと変わらない。この大量アクセスに制限をかけるには、アクセスログを監視するプログラムを組む必要がある。アクセスログからロボット的な動きをしていたら、その IP アドレスをシャットアウトすれば良い。

===

マイミク 100 人超えました

投稿者 Su-Jine : 2006年02月16日 15:23

mixi でアクセス解析
 Su-Jine の独り言
堀江メール

トラックバック

このエントリーのトラックバックURL:

このリストは、次のエントリーを参照しています: メールアドレス収集ロボット:

» 新手のメールアドレス収集クローラ from Su-Jine の独り言
最近は、メールアドレスを収集するロボット なのか大量にアクセスを残していくクローラがある。クローラなのに REFERRER を残し、User-Agent ... [続きを読む]

トラックバック時刻: 2006年03月01日 09:18

コメント コメントしてください




保存しますか?