コース: データサイエンス入門:基本を理解する

確率を理解する

確率の話も、統計に関する もう1つの面白いテーマです。 確率とは、何かが起こる可能性のことです。 起こり得る結果を測定します。 コインを投げたときにどちらの面が出るか、 確率で予測できます。 確率の統計的な側面、 確率分布に注目します。 6面のサイコロを投げると、 可能性は6通りです。 ある数が出る可能性は6分の1、 つまり、サイコロを投げた場合に、 特定の数が出る確率は17%です。 確率は、連続するイベントにも使えます。 同じ数が続けて2回出る可能性は どうでしょうか。 17%の17%で、約3%です。 サイコロゲームをしていたら、 かなり低い確率です。 データサイエンスチームは 確率を扱う機会があります。 予測分析の重要な部分です。 顧客がどのような行動を選ぶか、 その可能性を知るのに役立ちます。 あるバイオテクノロジー企業が、 臨床試験への参加者を 予測しようとしていました。 臨床試験の参加者を集めるのは 一筋縄ではいきません。 診療所の数は決まっており、 その維持に多額の費用がかかります。 参加者が集まらないと収入が減ります。 そこでデータサイエンスを使用し、 問いを立てました。 臨床試験への参加を 思いとどまらせるものは何か。 すると参加人数が減る可能性のある要素が いくつかあることが分かりました。 前の晩に食事ができない場合、 参加する可能性が30%低くなり、 血液検査や注射がある場合は 20%低くなります。 人々が参加する確率と、 試験結果の精度のバランスを 取らなければなりません。 薬の臨床試験を行うとします。 薬の有効性は、 唾液または血液の検査で確認できます。 精度は、血液検査のほうが10%高いため、 血液検査を行うべき状況です。 しかし、血液検査があると、 参加者が20%少なくなり、調査に使える データポイントの数が 少なくなってしまいます。 注射が苦手な人たちが参加しなくなり、 人数が減ります。 千人の参加者が必要な場合、 約200人減る計算です。 そうすると、別の問いが生じます。 人数が200人少なくなると、 結果の精度は下がるのか。 データサイエンスチームは 別の確率分布を作成しました。 薬である反応が起こるか 確認したい場合はどうか。 800人よりも千人のほうが データポイントが多くなります。 考慮に入れる必要があることです。 精度が下がったとしても、採血なしで 参加人数を増やした方が良いでしょうか。 これがさらに意味深い問いにつながります。 臨床試験の精度を高めるために、 唾液検査を数回にわたって 行うべきでしょうか。 こうした検討結果に支えられて、 企業は決定を下しました。 できるだけ多くの人に臨床試験に 参加してもらい、 薬の反応を確認できる可能性を高め、 精度がやや低い試験を複数回行って、 正確性の高い結果を 得られるようにすることが最善の策でした。 この方法なら、できるだけ多くの 参加者が集まり、 調査の確からしさも高まります。 確率を活用して解決できました。 次のことを心に留めておいてください。 1つ目は、確率は想定外の道を 拓くということです。 精度の低い検査でより良い結果が 得られる可能性があると 誰が予想したでしょうか。 2つ目は、確率は一歩踏み込んだ問いを 立てる優れた手段にもなるということです。 1つの問いからさらに問いが出ても 落胆しないでください。 データサイエンスとは、 データに科学的手法を適用することです。 時に、予想外の結論に 行きつくこともあるでしょう。 重要なことは、 急カーブでも飛び降りないことです。 確率を扱っている時には 起こりうることです。 急な方向転換は、優れた洞察への 道筋であることが多いのです。

目次