にわかに騒がしくなって来たMicrosoftによるYahooの買収話
「ページビューを稼ぐにはやはりブクマだよね」を検証してみた

「ブログのエントリーは多い方がページビューが稼げる」という説を統計学的に検証してみた

 ここのところ統計学を少しまじめに勉強しているのだが、そこで身につけたばかりのregression analysis(回帰分析)の手法を使って、「ブログのエントリーは多い方がページビューが稼げる」という説が本当かどうかを検証してみることにした。

 まずは、このブログの過去24週間の週ごとのエントリーの数とページビューの数を調べ、エントリーの数をX軸に、ページビューの数をY軸においてプロットしてみる。それだけでもなんとなく傾向があることが分かるのだが、これを最小二乗法を使って、直線で近似してみるとこんな感じになる。

Blog_regression_analysis

 直線の方程式は、Y = 44109 + 3405*X (Y:ページビュー、X:エントリー数)。つまり、このブログの場合、エントリーを書こうが書くまいが、週あたり約44000のページビューがあり、エントリーを一つ書くごとに約3400ページビューづつ増えて行くということになる。

 もちろん、あくまで統計データでしかないので、100パーセント信用できる話ではないのだが、傾きに対するstandard errorを計算すると1120。詳しい計算は省略するが、最小二乗法で求められた直線の傾き(3405)がstandard errorの3倍以上もあるということは、「エントリーを多く書いた方がページビューが稼げるという説は99.87%の確度で正しい」と言えることを意味する。

 ちなみに、週ごとのページビューは、エントリーの数以外の影響(たとえばブックマークされた数、他のブログから参照されている数など)でも上下するが、その「ばらつき」のうちどのくらいが「エントリー数」のみに影響されているかを示す数値がcoefficiet of determination(決定係数)。ExcelのCORREL関数を使って計算できるcorrelation coefficient(相関係数)を二乗した数値で、このケースだと0.295。つまり、週ごとのページビューのばらつきのうち、約30%がエントリー数による影響によるもの、残りの70%が他の影響によるばらつき、ということが分かる。

 つまり、エントリーをこまめに書くことも大切だが、より多くの人たちにブックマークされたり引用されたりする良いエントリーを書くこと・サーチエンジンにより発見されやすいエントリーを書きためておくこともまた大切だ、ということ。それなりのページビューを稼いでいるブロガーにとってはあたりまえのことだが、こうやって数字にするとより説得力が増す。

 ちなみに、統計学に関しての書物で、私として一番のおすすめはブルーバックスの「統計でウソをつく法」。これを読むと、ちまたで言われている「統計学的に解析すると...」という発言に、いかに「ウソ」や「こじつけ」が多いかが理解できる。この本に書いてある例で一番印象に残ったのが、「大学生のタバコと成績の相関関係」の話。実際、とても強い相関関係が出るのだが、それは「タバコを吸うから頭が悪くなるのか」、それとも「頭が悪いからタバコを吸うのか」、それともまったく別の理由か?この話一つでも結構勉強になるので、一読の価値あり、である。

Comments

ishikawash

> 直線の方程式は、Y = 44109 + 3405*X (Y:ページビュー、Y:エントリー数)。
(Y:ページビュー、X:エントリー数)ですよね?

Satoshi

ご指摘ありがとうございます。修正させていただきました。

Hidehisa

いつも(RSSリーダーで)拝見しております。今回の記事は特に興味深かったです。

記事数が増えると全体のPV数が増えるのは、固定客がいれば当然のような感じがあり、それをデータで確認した形だと思います。

では、1週間あたりの記事数と、1記事あたりのPV数の関係なんてのも知りたいと思いました。次のネタにいかがでしょうか。

ちいちゃん

私が見たので最も印象に残っている相関図は、コウノトリの生息数と新生児の出生数とを比較したものでした。コウノトリの数が減ると出生数が下がる、というものです。相関図をしてものを語ることの怖さ(いいかげんさ)をこれで知りました。

saka

エントリー数とページビュー数だけの関係では、思った以上に決定係数が低く、他の要因も考えなければいけないように読めると思いました。
エントリー内容を数値化できたら(って、そんなことできるかどうかわかりませんが)面白いですね。

daniel

sakaさんのコメントのところで、

>エントリー内容を数値化できたら(って、そんなことできるかどうかわかりませんが)面白いですね。

とありますが、これは難しいとしても、カテゴリーごとのダミー変数を入れて、どのカテゴリーのダミー変数が有意に効いているかを調べるのは面白いと思います。大学院で計量経済学とか統計学を学んでいたものからのエントリーでした。

dankogai

R^2はいくつでした?
でも、統計を持ち出すまでもなく、これはblogを書いていれば皮膚感覚でわかるようになりますね。
Dan the Blogger

Satoshi

>R^2はいくつでした?

coefficiet of determinationがR^2のことです。つまり、0.295。

びんご

以前に拙ブログの記事「零細ブログにおけるPVとエントリー数との関係」で似たような解析したことがあります。X、Yが若干異なりますが、アルファと零細との比較にしていただけるとうれしいです。

soichi

週に1回も更新していないとどうなるのか興味があります。
今回の記事からわかるのは
・1週間当たり44000+αの人物が訪れること
・記事を更新するたびに3400人が訪れること

つまりは記事を更新するたびに見に来る人が3400人いて、定期的(1週間に1回~1日1回)に訪れる人が44000人いるというだけのような気が。

・1回も更新しなかった週が複数にわたって続いた場合、44000より下がらないか
・1個更新するたびに1個記事を消したら44000に落ち着くのか

の2つは予想と違うものになるんじゃないか、という気がします。

Yuta

固定客が44000人もいるのはずごいと思います。
ブランド力を感じます。
加えて直線の傾きで、そのサイトの価値が表せるのかなと感じました。
ブログの開設当初や更新をサボりだすと、統計の結果としてX=0の時のYの値と直線の傾きがが0になるような直線に変わっていくはずなので、自分のサイトはきっとそんな感じなのだろうな、と思いました。
いろいろな人気サイトやブログについて、横並びで較べてみたら面白いかなと。

Verify your Comment

Previewing your Comment

This is only a preview. Your comment has not yet been posted.

Working...
Your comment could not be posted. Error type:
Your comment has been posted. Post another comment

The letters and numbers you entered did not match the image. Please try again.

As a final step before posting your comment, enter the letters and numbers you see in the image below. This prevents automated programs from posting comments.

Having trouble reading this image? View an alternate.

Working...

Post a comment

Your Information

(Name is required. Email address will not be displayed with the comment.)