関連性があるかどうかを調べる

風が吹いたら桶屋が儲かる、なんてことを言いますが、何かが起きたら同時に他の何かが起きる、という法則は、あらかじめ見えている場合と見えていない場合があります。
例えば、気温が上がったらビールの売り上げが上がるのは予想できます。
広告費をかけたらその分売り上げは伸びるでしょう。
しかし、一見同じように伸びると思われるようなことでも実際には同じように伸びない場合もあります。
例えば、ダイエットのために食事に野菜の比率を増やして、ダイエットに成功する人もいればそうではない人もいます。
そのような関連性があるかないかの度数を相関係数と呼び、ExcelではCORREL関数で求めることができます。

散布図を描いてみよう

相関係数は散布図を描くことでイメージできます。
次の例は、気温と売り上げの関係を散布図で描いています。

数値だけ見てもよくわからないのですが、散布図ではほぼ一直線になっています。見ただけでも気温と売り上げにはかなりな相関がありますね。
これなら天気予報で明日の気温を見て、仕入れ量を調整してもいいでしょう。
実際には次のようなケースも考えられます。
ぜんぜん直線度合いがないので、信頼できるかちょっと不安ですね。

CORREL関数

どのくらい直線かを表すのは、相関係数という数字です。
直線的に上がっていく、直線の度合いが大きければ1、小さければ0に近くなります。
また、直線的に下がる場合もあるでしょう。その場合は-1に近くなります。
その度合いを求めるのがCORREL関数です。
CORREL関数は-1から+1の間の数字を求めますが、その数値を2乗した数値を重相関係数とよび、重相関係数の値の意味は大体次のように定義されています。

  • 0.7以上で強い相関
  • 0.3以上で相関がある
  • -0.3から0.3の間は相関なし
  • -0.7以上でマイナスの相関がある
  • それ未満で強いマイナスの相関がある

ただし、この定義はいろいろなシチュエーションで変わってきます。
ランダムな数字を使って、偶然強い相関の出る確率を調べたことがあるのですが、偶然強い相関になる可能性は0.5%しかありません。相関ありとなる確率も10%でした。
このように相関係数の数字は関係ありかどうか調べるのに十分な根拠になります。
CORREL関数は2つのデータ範囲が必要です。書式は、

=CORREL(一つ目のデータ範囲,二つ目のデータ範囲)

です。
気温と売り上げの関係を見るのであれば次の通りです。

=CORREL(気温のデータ範囲,売上のデータ範囲)

第一引数が原因、第二引数が結果で入れるといいでしょう。

この値を重相関係数で見る場合は2乗する次の計算式になります。

=CORREL(気温のデータ範囲,売上のデータ範囲)^2

コメント

タイトルとURLをコピーしました