2006年01月25日

Googlebot の謎

昨年からずっと気になっていたことがあった。Googlebot は下記の 2 種類存在する。

A. Googlebot/2.1 (+http://www.google.com/bot.html)
B. Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

A がクロールした後は確実にインデックスされていたにもかかわらず、B がクロールしてもインデックスがされていなかった。

今年に入って Google は http://66.249.93.104/http://64.233.179.104/ を検証用データセンタとしたらしい。この 2 つは検索しても検索結果はさほど変わらない。しかし、インデックス数が他のデータセンタと全く異なる。現在のインデックス数の 2 〜 3 倍程度だ。

インデックス数は増えているが、サイト毎に見ると大幅に減っているサイトもあれば、大幅に増えているサイトもある。この検証用のデータがすぐに本番用としてリリースされるかはわからないが、意外と打撃を受けるサイトも多いだろう。

そこで、検索順位もさほど変わらないので何が違うかというのを調べていた。気になったことはキャッシュの日付が違うこと。キャッシュの日付が違うので、クローラの情報を調べてみた。そうすると、新データセンタのキャッシュは、確認したものは B によるキャッシュであり、A のキャッシュではない。

しかし、なぜ新しいクローラでクロールする必要があったのか。このあたりに疑問が残る。

投稿者 Su-Jine : 2006年01月25日 10:04

ライブドア
 Su-Jine の独り言
サーバの負荷対策に悩む

トラックバック

このエントリーのトラックバックURL:

このリストは、次のエントリーを参照しています: Googlebot の謎:

» googleのPR更新 from アフィリエイトの犬
不審な動きをするgoogle。そしてPR更新へ突入・・・ [続きを読む]

トラックバック時刻: 2006年01月28日 01:41

» Mozilla Googlebot が主流に? from Su-Jine の独り言
まだオープンしていないサイトがある。去年の 12 月頃に取得したドメインだ。まだオープンしていないし、どこからもリンクが貼られていない。にもかかわらず、Y... [続きを読む]

トラックバック時刻: 2006年03月19日 12:43

コメント

http://www.webmasterworld.com/forum30/32409.htm

自分の管理する複数のサイトでも
Mozilla/5.0
に回収されたページがインデックスされたのを
確認しました。

投稿者 cmy : 2006年01月27日 06:08

なぜ新しいクローラでクロールする必要があるのかというのが疑問なんですよね。クローラのバージョンは同じなので、スケジュール管理が違うのか。バージョンが違えば Googlebot/2.2 とかするはずですから。Mozilla/5.0 の方がじわじわとクロールするという感じで、今までの Googlebot はクロールするときは爆発的にクロールするというような感じです。

投稿者 Su-Jine [TypeKey Profile Page] : 2006年01月27日 10:08

コメントしてください




保存しますか?