「ブログのエントリーは多い方がページビューが稼げる」という説を統計学的に検証してみた
2008.04.15
ここのところ統計学を少しまじめに勉強しているのだが、そこで身につけたばかりのregression analysis(回帰分析)の手法を使って、「ブログのエントリーは多い方がページビューが稼げる」という説が本当かどうかを検証してみることにした。
まずは、このブログの過去24週間の週ごとのエントリーの数とページビューの数を調べ、エントリーの数をX軸に、ページビューの数をY軸においてプロットしてみる。それだけでもなんとなく傾向があることが分かるのだが、これを最小二乗法を使って、直線で近似してみるとこんな感じになる。
直線の方程式は、Y = 44109 + 3405*X (Y:ページビュー、X:エントリー数)。つまり、このブログの場合、エントリーを書こうが書くまいが、週あたり約44000のページビューがあり、エントリーを一つ書くごとに約3400ページビューづつ増えて行くということになる。
もちろん、あくまで統計データでしかないので、100パーセント信用できる話ではないのだが、傾きに対するstandard errorを計算すると1120。詳しい計算は省略するが、最小二乗法で求められた直線の傾き(3405)がstandard errorの3倍以上もあるということは、「エントリーを多く書いた方がページビューが稼げるという説は99.87%の確度で正しい」と言えることを意味する。
ちなみに、週ごとのページビューは、エントリーの数以外の影響(たとえばブックマークされた数、他のブログから参照されている数など)でも上下するが、その「ばらつき」のうちどのくらいが「エントリー数」のみに影響されているかを示す数値がcoefficiet of determination(決定係数)。ExcelのCORREL関数を使って計算できるcorrelation coefficient(相関係数)を二乗した数値で、このケースだと0.295。つまり、週ごとのページビューのばらつきのうち、約30%がエントリー数による影響によるもの、残りの70%が他の影響によるばらつき、ということが分かる。
つまり、エントリーをこまめに書くことも大切だが、より多くの人たちにブックマークされたり引用されたりする良いエントリーを書くこと・サーチエンジンにより発見されやすいエントリーを書きためておくこともまた大切だ、ということ。それなりのページビューを稼いでいるブロガーにとってはあたりまえのことだが、こうやって数字にするとより説得力が増す。
ちなみに、統計学に関しての書物で、私として一番のおすすめはブルーバックスの「統計でウソをつく法」。これを読むと、ちまたで言われている「統計学的に解析すると...」という発言に、いかに「ウソ」や「こじつけ」が多いかが理解できる。この本に書いてある例で一番印象に残ったのが、「大学生のタバコと成績の相関関係」の話。実際、とても強い相関関係が出るのだが、それは「タバコを吸うから頭が悪くなるのか」、それとも「頭が悪いからタバコを吸うのか」、それともまったく別の理由か?この話一つでも結構勉強になるので、一読の価値あり、である。
> 直線の方程式は、Y = 44109 + 3405*X (Y:ページビュー、Y:エントリー数)。
(Y:ページビュー、X:エントリー数)ですよね?
Posted by: ishikawash | 2008.04.15 at 18:33
ご指摘ありがとうございます。修正させていただきました。
Posted by: Satoshi | 2008.04.15 at 19:22
いつも(RSSリーダーで)拝見しております。今回の記事は特に興味深かったです。
記事数が増えると全体のPV数が増えるのは、固定客がいれば当然のような感じがあり、それをデータで確認した形だと思います。
では、1週間あたりの記事数と、1記事あたりのPV数の関係なんてのも知りたいと思いました。次のネタにいかがでしょうか。
Posted by: Hidehisa | 2008.04.15 at 20:22
私が見たので最も印象に残っている相関図は、コウノトリの生息数と新生児の出生数とを比較したものでした。コウノトリの数が減ると出生数が下がる、というものです。相関図をしてものを語ることの怖さ(いいかげんさ)をこれで知りました。
Posted by: ちいちゃん | 2008.04.15 at 20:34
エントリー数とページビュー数だけの関係では、思った以上に決定係数が低く、他の要因も考えなければいけないように読めると思いました。
エントリー内容を数値化できたら(って、そんなことできるかどうかわかりませんが)面白いですね。
Posted by: saka | 2008.04.15 at 22:50
sakaさんのコメントのところで、
>エントリー内容を数値化できたら(って、そんなことできるかどうかわかりませんが)面白いですね。
とありますが、これは難しいとしても、カテゴリーごとのダミー変数を入れて、どのカテゴリーのダミー変数が有意に効いているかを調べるのは面白いと思います。大学院で計量経済学とか統計学を学んでいたものからのエントリーでした。
Posted by: daniel | 2008.04.15 at 23:33
R^2はいくつでした?
でも、統計を持ち出すまでもなく、これはblogを書いていれば皮膚感覚でわかるようになりますね。
Dan the Blogger
Posted by: dankogai | 2008.04.16 at 01:34
>R^2はいくつでした?
coefficiet of determinationがR^2のことです。つまり、0.295。
Posted by: Satoshi | 2008.04.16 at 05:00
以前に拙ブログの記事「零細ブログにおけるPVとエントリー数との関係」で似たような解析したことがあります。X、Yが若干異なりますが、アルファと零細との比較にしていただけるとうれしいです。
Posted by: びんご | 2008.04.16 at 06:28
週に1回も更新していないとどうなるのか興味があります。
今回の記事からわかるのは
・1週間当たり44000+αの人物が訪れること
・記事を更新するたびに3400人が訪れること
つまりは記事を更新するたびに見に来る人が3400人いて、定期的(1週間に1回~1日1回)に訪れる人が44000人いるというだけのような気が。
・1回も更新しなかった週が複数にわたって続いた場合、44000より下がらないか
・1個更新するたびに1個記事を消したら44000に落ち着くのか
の2つは予想と違うものになるんじゃないか、という気がします。
Posted by: soichi | 2008.04.16 at 20:34
固定客が44000人もいるのはずごいと思います。
ブランド力を感じます。
加えて直線の傾きで、そのサイトの価値が表せるのかなと感じました。
ブログの開設当初や更新をサボりだすと、統計の結果としてX=0の時のYの値と直線の傾きがが0になるような直線に変わっていくはずなので、自分のサイトはきっとそんな感じなのだろうな、と思いました。
いろいろな人気サイトやブログについて、横並びで較べてみたら面白いかなと。
Posted by: Yuta | 2008.04.17 at 14:12