いいかげんにしなさい!/ Correction

世の中間違ってる!とか、それは変だよ!とか、まあ、ようするに私は怒ってます的なことを大小、重要度関係なく…んなことを綴ります。
2

悪質・悪らつだぞ!!! Googlebot!!! [ 2006/10/02 05:17 ]

最近、深夜2~4時台の当サイトへのアクセスがやたら重い。
重いと言うより繋がらない!!

ロリポップ遅いぞ!!!と怒り狂って、アクセス・ログを調べてみました。
するとやたらGooglebotが集中してアクセスしているので、Googlebotだけを表示するように解析してみました。
9月30から1000pv分のアクセスログを表示した物です。クリックして拡大した画像をご覧下さい。

9月30から1000pv分のアクセスログを表示した物です。
クリックして拡大した画像をご覧下さい。

すると何と!!
ログ1000個の内445もGooglebot!!!!!
しかも延々とトップページだけに!!!
さらに一分間に20回以上のアクセス!!!!
ほとんど3秒に一回ですよ!!!
これじゃあロリポップみたいな非力なサーバーはダウンしてしまうに決まっている!!!

この表の見方ですが…、
●1行目が各項目ですね。
●2行目はログ解析方法の詳細。
この表でいうと、解析対象のログ数が「1000個」。
そのうち検索項目「Googlebot」の数が「445個」
「Tootal Visitor」というのはホストの数、
つまりGooglebotの別ホストの数です。
(この表は公開を前提に創っていますので、ホスト情報はニックネームで置き換える設定にしてあります。
そのため人の名前になっているんです。)

で、とにかく悪質だと思ったのは以前はGOOGLEBOT、USERAGENTが何種類か別れていたんですが、
このログでは一つになっているんですね!!!
これだと何をしにきているロボットが分かりづらいじゃないですか。

UserAgent に違いが有れば、悪質だと思うのだけ特定して排除すればいいわけですが、違うのはIPだけなんですよ。

●以下はそのIPの詳細

■HOST: crawl-66-249-65-68.googlebot.com
■IP: 66.249.65.68
■USER AGENT: Mozilla/5.0 (compatible; Googlebot/2.1; https://www.google.com/bot.html)

■HOST: crawl-66-249-65-147.googlebot.com
■IP: 66.249.65.147
■USER AGENT: Mozilla/5.0 (compatible; Googlebot/2.1; https://www.google.com/bot.html)

■HOST: crawl-66-249-65-205.googlebot.com
■IP: 66.249.65.205
■USER AGENT: Mozilla/5.0 (compatible; Googlebot/2.1; https://www.google.com/bot.html)

とりあえず3つほど…。
IP/HOSTが66.249.65.* 以外はすべて同じです。
このうち行儀が良いのはというか、きちんと各ページを巡回していそうなIPは、
2番目の■IP: 66.249.65.147 だけです。
これだけが各ページを一回だけ巡回していました。
他のはすべてトップページだけに!!2時間以上もアクセス続けていました(怒)!!!!

もうGooglebot 出入り禁止だ!!!!!
この行儀が悪そうなのだけを排除することも出来そうなんですが…、

う~ん、しかしそんなことやると訪問者が半分以下になりそうだし…。
ちょっと怖い(^^;)

ほんと足下見るいや~な連中だよな…。

Date : 2006/10/02 05:17
Posted by valley | | Edit |

avater

さらにタチの悪いクローラー! e-SocietyRobot!!!
[ 2006/10/12 17:46 ]

なあ~んとさらにタチの悪いヤツがいました。
10月11日の昼から夜の12時にかけて
全pv1361のうち半分の685pv記録している!!
これです!
この日データに他のロボットが無いのは、ログからGoogle、Msnbotなどを順番に削除して行ったからです。ようするにこの日はほぼ4/3がクローラと…訪問者のログはわずか約600pvだったわけですねえ(^^;)

この日データに他のロボットが無いのは、ログからGoogle、Msnbotなどを順番に削除して行ったからです。
ようするにこの日はほぼ4/3がクローラと…
訪問者のログはわずか約600pvだったわけですねえ(^^;)

10秒に一回の割で10時間以上もサイトへアクセス!!
こんなヤツらがいるからサーバーが重くなるんだよ!!

Agentをみると、どうも早稲田大学の関係みたいです。
e-SocietyRobot(https://www.yama.info.waseda.ac.jp/~yamana/es/)

いやね、一日100回でも200回でも絵やコメントを閲覧に来てくれるなら、私は何も文句はありません。
事実、じっくり見てくれる人は、100pv以上は普通です。
しかし、クローラーは違うからね。
リンク元見るとdirect、ってことは、まったくサイト構造関係なくアクセスしてくるからいやなんですよ。
サイト作成者に敬意も何もない!!

他にも、東京大学の『Steeler』というのもありましたが、こちらは行儀が良いです。

Date : 2006/10/12 17:46
Posted by valley | | Edit |

avater

サーバーへ連続アクセス??ミイラ取りがミイラに…
[ 2006/10/22 02:32 ]

なんと、私自身まで
自サイトへ連続アクセスという事態に。
ホスト項目のロゴは総て私です。私まで同じページへ連続アクセスのログを…

ホスト項目のロゴは総て私です。
私まで同じページへ連続アクセスのログを…

う~ん、とりあえず、どうして同じページに3秒に1回とかの異常なアクセスが起きるのか状況はつかめました。

が…、その状況を再現することができません。
再現できればもっと詳しく解析できるんですが…。

サーバーが重すぎるからアクセスの重複が発生するのか…
それともロボットのアクセス頻度が高すぎるから
重くなるのか…。

どうも鶏が先か卵が先かって感じですが、
やっぱりロリポップが重いんじゃあないのって疑問は湧いてきましたねえ。

もう少し研究してみます。

で、研究してみた結果は・・・・・
下記をご覧下さい。
連続アクセスの原因究明(^^;)

Date : 2006/10/22 02:32
Posted by valley | | Edit |

avater