「ページビューを稼ぐにはやはりブクマだよね」を検証してみた
2008.04.16
昨日のエントリーに引き続き、今日もブログのページビューの統計解析。今日は、一週間あたりのブックマーク数とページビューの相関関係をプロットしてみた。
これもしっかりと相関関係が出ている(一つだけ例外的に480近くもブックマークを集めたにも関わらずページビューが極端に低い週があるが、これは年末で例外的にトラフィックが低かった週のデータ)。
最小二乗法で求めた直線の方程式は、Y=53595+45X(Y:ページビュー、X:ブックマーク数)。Coefficient Determination(R^2)は37%。相関関係はエントリー数よりも強い。"45X"の項目は、ブックマークが一つ増えるとページビューが45増えることを示しており、ページビューを稼ぐためにはブックマーカーに受ける記事を書くことが一番の近道だ、ということを表す。
◇ ◇ ◇
さて、ここまで読んでいただいて、あなたはどう感じただろうか?「そうか、やはりページビューを稼ぐにはブックマーカーに受ける記事を書くに限る!」と頭から信じてしまった人は、少し気をつけた方が良いと思う。まさにこれが「統計のワナ」だからである。
このデータが示すことは、単にブックマークの数とページビューに相関関係がある、ということを示すだけの話であり、どこにどういう因果関係があるかは教えてくれない。
解釈としては、
- ブックマークが増えると、その結果ページビューが増える
- ページビューが多いと、その結果ブックマークの数も増える
- ある条件が整うと(たとえば「多くの人にとって読む価値のあるエントリー」を書くと)ページビューも増えるしブックマークも増える
の三通りがあり、さらにその組み合わせ、という可能性すらあるのだ。ブロガーとしては、「それなりのエントリーを書くとページビューもブックマークも増え、その結果ブックマークや引用が増えると
その相乗効果としてさらにページビューが増える」というのが実感である。
◇ ◇ ◇
結局のところ、統計学を学べば学ぶほど明らかになって来るのは「この手の統計データを見た時には、一見どんなに説得力があろうと、基本的には頭から疑ってかかるべき」という話と、それと表裏の関係にある「実際にはあまり意味を持たないデータから、グラフなどを使って一見説得力のある資料を作ることは統計学の知識さえあれば結構簡単で、それで騙される人は結構多い」という話である。
相乗効果があるのなら、指数関数的な近似線になって良い気がしますが、割と直線的ですね……。
Posted by: knenet | 2008.04.17 at 08:22
このエントリーの趣旨にはまったくagreeの上で、今回の解析処理について一言。
---
回帰分析において、いったん回帰直線が引けたのなら、
回帰診断をすることが重要です。
つまり、データの吟味です。
今回のデータでは、外れ値(outlier)が存在します。
x=480にも関わらずyが小さなデータや、右上の方のデータなどです。
実験データではなく、今回のような観察データの場合は、
x方向、y方向、両面から検討します。(実験データでは、要因xは整理された値のためy方向のみ)
そうして見つけた外れ値の外れた原因を調査します。
x=480が外れた原因は明確ですね。
そのとき、この外れ値は、異常値となります。
(原因が明確な外れ値を異常値と呼びます)
そして、異常値はマスク(解析データから外す)し、回帰直線を引きなおします。
こうすることで、直線はより信頼できるものになります。
ただし、R^2(xでyがどれだけ説明できるか)が必ずしも高い値になるとは限りませんし、
この処理をやり過ぎると、整理されすぎたデータの解析となり、
現実を表わしていない直線になってしまいます。
---
統計から得られた結論は、怪しいもの(以前の某健康番組)が多く、解析者のやりようでいくらでも手を加えられます。
疑ってかかることは今特に必要だと思います。
だからこそ、自分が統計解析を使うときは、
正しい解析方法と、生データの背景を理解した、総合的な分析が必要なのでしょうね。
Posted by: kaji | 2008.04.17 at 09:00
次にやることは、granger causality testなどですかね。
因果の向きもわかりますが、確かに初心者にはオススメできないですね。w
Posted by: hiddy | 2008.04.24 at 04:53