コース: データサイエンス入門:基本を理解する

相関を見つける

分析における記述統計について、 簡単にお話ししました。 もう1つ、相関について説明します。 企業が顧客の購買傾向を推測する場合や、 友達や知り合いとのつながりに使われます。 動画配信サービスを利用した時に、 好みを言い当てられて 驚いたことがあるでしょう。 アマゾンのおすすめ商品にも、 長年にわたって相関が使われています。 相関とは、2つのものの関連の度合いを 測定する一連の統計的関係です。 通常、1から0の間で表されます。 相関が1の場合、 2つのものには強い相互関係があり、 ゼロの場合、2つのものに 相互関係はありません。 数値は、プラスまたは マイナスで表されます。 マイナス1の場合は、 逆相関または反相関があります。 プラスの相関とは、 身長と体重のようなものです。 背が高い人ほど、 体重が重い傾向にあります。 もっと分かりやすい例で言うと、 気温が高いほど、 アイスクリームが売れる傾向にあります。 つまり、気温が上がれば、 アイスクリームの売上が増えます。 マイナスの相関は、 自動車とガソリンのようなものです。 重たい車ほど、1リットルあたりの 走行距離は短くなります。 車の重量が増えると、 燃費が悪くなるというような、 反対の関係にあります。 ランナーが坂道を走ると、 上に行くにつれて速度が遅くなります。 これもマイナスの相関です。 傾斜が大きくなると、速度が下がります。 プラスの相関とマイナスの相関は、 どちらも2つの関係を 確認する優れた方法です。 逆相関が悪いという意味ではなく、 単に関係を理解するための方法です。 データサイエンスチームは データの相関を探します。 そして、関係の微調整を図ります。 幸い、相関の計算の裏にある数学は ソフトウェアツールで処理できます。 よく使われる式のひとつに、 相関係数があります。 通常、きりのいい数ではなく、0.5、 マイナス 0.75 のようになります。 これで相関が強いか弱いかが分かります。 プラス1またはマイナス1に近いほど、 関係はより強くなります。 例として、リンクトインの 「もしかして知り合い?」機能があります。 リンクトインで知人同士を 見つける方法を求めて、 データサイエンスチームはリンクトインの データからつながりの相関を調査しました。 なぜつながりがあるのか。 同じ学校や、仕事で接点が あったのかもしれません。 グループや興味が同じなのかもしれません。 そこで、プラスとマイナスの 相関を探しました。 データから、興味のある仕事を 割り出します。 同じ傾向の人と、 以前同じ会社に勤めていたら、 どのような仕事を探していて、 どこで働いていたかが分かります。 この2人の間に相関を確立するには、 それで十分です。 同じビルで働いたことがあり、 同じ仕事に興味がある人の間には、 強いプラスの相関が あることがうかがえます。 それで知り合い候補として出てくるのです。 あなたのつながりと、 他の人のつながりとの間に、 相関を作ることもできます。 ある人とつながると、その人と つながりのある人たちとも 良好な関係を築ける可能性があります。 これは理にかなっています。 同じビルで働いているほうが 知り合いになる可能性が高く、 同じような関心を持っているほうが つながる可能性が高くなります。 似た関心事の数が増えるほど、 その人と知り合いの可能性は高くなります。 相関は、仮定に対する問いを 促す効果もあります。 ウェブサイトで一番お金を使った人が、 最も満足度の高い顧客であると仮定します。 しかし、使った金額と満足度には マイナスの相関があるかもしれません。 一番お金を使った人は 過度な期待をする可能性もあり、 落胆してマイナスの評価をしがちです。 データサイエンスチームは、 相関を使用して仮定をテストします。 満足度の高い顧客が より買い物をする戦略や、 よくお金を使う顧客の期待を 管理する方法を考えることができます。 相関を探すことで、 見過ごしがちなことがたくさん分かります。

目次