コース: データサイエンス入門:基本を理解する

相関が因果関係を意味しないことを理解する

コース: データサイエンス入門:基本を理解する

相関が因果関係を意味しないことを理解する

相関はとても便利です。 ほかの方法では見つからない関係が 探せます。 しかし、見ているものが相関によって 引き起こされているのか、確認が必要です。 相関によって変化が起きたのでしょうか。 一般的に、相関は因果関係を 意味するものではありません。 2つのモノの関係は、 分析に含まれていない第3の要素に 影響を受けている可能性があります。 因果関係の割り出しは データサイエンスチームにとって 大きな課題です。 存在しない関係を作ってはいけません。 例えば、私は寒い地域で育ちました。 両親は、フロリダ南部に引越しました。 今は、ボカラーゴにある 高齢者居住区に住んでいます。 私は数か月に1度、訪ねています。 統計的には、そこは地球上で 最も危険な場所の1つです。 いつも誰かが入院していたり、 状態がよくなかったりします。 この地区と死や重症との間には、 強い相関関係があります。 足を踏み入れないほうが いい地域だと思いますか。 シューティングゲームの オープニングみたいですよね。 私はこの相関を気にしません。 頻繁に訪問し、安全だと思っています。 相関が因果関係を 意味するものではないからです。 真の原因は年齢の中央値が とても高いことです。 そこに住む高齢者は、 怪我や死亡の可能性が非常に高いのです。 相関だけを見たら紛争地帯に 住んでいると思うでしょうね。 プールサイドで和やかに 麻雀しているなんて想像できないでしょう。 このようなケースも 念頭に置いておく必要があります。 靴のウェブサイトに戻りましょう。 1月の売上が大幅に増えていることが 分かったとします。 1月と、新しい靴を購入した 人数との間には、強い相関があります。 チームは協力してこの原因を把握し、 いくつかの問いを立てます。 1月はお金があるのではないか。 一番寒い月にランニングする人が 多いのはなぜか。 新年の抱負を立てて、 ランニングを始めた人たちではないか。 新規の顧客か。 どんな靴を買っているか。 チームはこれらの問いについて話し合い、 レポートを作成しました。 ほとんどが新規顧客で、 高価な靴を買っていることが分かりました。 チームは、1月は 金銭的に余裕がある人が増え、 それが新規売上の要因になっているという 結論に達しました。 ギフトカードをもらったのかもしれません。 翌年、チームはこの因果関係を 利用することにしました。 年末にギフトカードを贈り、 昨年の新規顧客には プロモーションを実施しました。 数か月後、チームはデータを調べました。 ところが、影響は全くありませんでした。 ほぼ同じ数の人が、 ほぼ同じ数の靴を買っていました。 金銭的なことは1月の売上げ増の 原因ではなかったようです。 チームは元の問いに戻り、 さらにレポートを作成しました。 今年と去年のすべての新規販売が、 ランニングを始めた人だと分かりました。 一番寒い時期に高価な靴を購入する 新規顧客が増えるのはなぜでしょうか。 チームは、行動に理由があるのではないかと 考えました。 そこで、新しい問いを立てました。 新規顧客は、新年の抱負を体を 鍛えることにした人ではないか。 翌年、新たなプロモーションを 実施しました。 新年の抱負と連動した企画です。 新年の誓いを守りませんか、と書かれた メールを送り、関心を 持ち続けてもらうためにランニングガイドと フィットネストラッカーを 無料でプレゼントしました。 相関と因果関係は、 データサイエンスチームにとって 重要な課題です。 間違った関係を作りかねないという 危険性があります。 統計では、これを擬似相関と呼びます。 真の原因を見つけることで、 多くの価値が得られます。 疑似相関を回避する一番いい方法は、 科学的手法に従うことです。 良い問いを立て、結論を明確にすることを 忘れないでください。

目次