このブログを統計解析してみた
2008.03.28
去年の秋から始めたMBAも4月第三期目に突入。ここのところiPhoneのSDKに夢中なのでなかなか勉強する気になれないが、何も予習をせずに行くと痛いめに会うのでしぶしぶ勉強開始。
科目の一つは既にある程度知識がある統計学なので思いっきり手を抜いて臨む予定だが、宿題だけはやって行かないと話にならないので、順番に消化開始。その宿題の一つが、
自分の仕事と関連のある統計データを三つ集めて来てヒストグラムを書いた上で分析せよ。
というもの。手短かに手に入る統計データとして思いついたのは、Google Analyticsなどで集まるこのブログに関するデータ。漠然とベージビューの平均値ぐらいは認識していたが、日々のベージビューがどのくらいのばらつきを持っているかなどは調べたことがなかったのでちょうど良い機会だ。
最初に集めたのは、Google Analyticsから分かる日々のベージビューの変化。去年の4月の頭から今年の3月末までのページビューをExcelに取り込んだ上で、StadPadという統計処理用のプラグインを使ってヒストグラムを作るとこんな感じになる。
興味深いのは、ページビューの平均値が9000であるにも関わらず、ピークは7500付近にあること。このブログを訪れる人が常連さんとサーチエンジンから来る一見さんだけで成り立っている7500付近を中心にしたきれいなベルカーブになるはずだが、何週間かに一回出す「ヒット作品」による特殊なトラフィックが重なってこんな形になったもの、と想像できる。
次にヒストグラム化したのが、Google Adsenseにおける日々のクリック数の統計データ。
平均クリック数は5にも関わらずピークは2と3の間にあり、ページビューの偏りだけでは説明できない偏りだ。これを見る限りで言えることは、Google Adsenseは毎日でないにせよ、たまに「クリックする価値のある広告」を選び出して貼付けるため、日によっては30クリックを超える日もあるということぐらいか。
次にヒストグラム化したのは、アマゾン・アフィリエートで売上げのあった書物のそれぞれについて、何冊の売上げがあったかのデータ。
とヒストグラム化してみたものの、1冊しか売れなかった本が大量にあるため、その偏りのためあまり訳にたたないグラフになってしまった。「これぞロングテールの力」と言っても良いのだが、テールが左上にあるのでこれでは恐竜には見えない。そこで仕方がないので、ヒストグラムではなく、純粋に売れた数順に書籍を並べて棒グラフ化したのがこれ。
こうすれば、ちゃんと左上が頭、右下がしっぽのロングテールになってくれる。
初めまして。書籍のプロットは対数にして見てみたい気もします。
Posted by: zunda | 2008.03.29 at 03:22
一般的にこのような最大の値が果てしなく大きくなるとか、ロングテールものに関しては、代表値に平均を使わず中央値(メディアンだったりメジアンだったり言われる)を使うのが普通ですよん。
Posted by: Dursan | 2008.03.30 at 22:07