コース: データサイエンス入門:基本を理解する

テクニックを駆使して予測分析を行う

コース: データサイエンス入門:基本を理解する

テクニックを駆使して予測分析を行う

ここまで見てきたのは、 過去についてでした。 データを収集して統計分析を行う方法を 説明しました。 統計は、より深い洞察を得るための 出発点です。 ある現象と別の現象の相関を 見出すこともできます。 それらを活かすと、 変化を起こすことができます。 洞察を活用して、方向転換し、 将来を予測します。 これは、予測分析と呼ばれます。 予測分析は データサイエンスと密接な関係があります。 同じ意味で使われることがありますが、 異なるものです。 予測分析は、データサイエンスの一種です。 データサイエンスは科学的手法を データに適用することです。 予測分析は、結果を予測し、 それを実現できるようにします。 こう考えてください。 気象学は科学の一種です。 物理学、風速、気圧を研究します。 気象学者と出かけると、 雲の見え方や、気圧が雲の動きに どう影響するかを教えてくれます。 それが気象学です。 天候を理解することと、 過去の傾向を確認することです。 しかし、多くの人々の関心は 科学としての気象学というより、 天気予報に向けられます。 天気予報は、 気象学者たちが行う予測分析です。 確率と相関を使って 気象パターンを予測します。 気象学者は、過去のデータを利用して 確率を出します。 低気圧と暴風雨には相関がありそうです。 気圧が下がると、嵐が激しくなります。 気圧と嵐の間には、 プラスの相関があります。 明日の天気はどうなるのかという 単純な問いに答えられるよう、 気象学者はこのような分析を すべて統合しているのです。 過去を理解することで、 未来を予測しています。 予測分析には 新たな関心が寄せられています。 新しいツールやテクノロジーで、 興味深い洞察が得らます。 天気予報で言えば、 現在利用できる過去のデータは、 数千地点のものに限られています。 もし気象予報機関が、 数百万のビーコンを配り、 人々が自宅に設置し、 ワイヤレスネットワークに接続したら どうでしょう。 この低価格なデバイスは、 気圧と温度の情報を記録します。 動画や音声も記録します。 データはハドゥープクラスターに アップロードされます。 こうすると、これまでにないレベルの 情報を集めることができます。 これが、予測分析とデータサイエンスの ビッグデータが密接な関係にある理由です。 データの量が多いほど、 チームはより意味深い問いを立てられます。 そして、複雑な分析を行うことができます。 家屋単位、ブロック単位で 気象パターンを確認できるようになり、 数百万箇所からのデータに基づいて 複雑な予測モデルを作成できました。 靴のウェブサイトでも 同じことが当てはまります。 ランニングに関するツイートを収集して、 影響力のあるランナーを何人か特定し、 PRを期待して靴を無償提供したり、 特典を贈ったりできます。 データから重要な出来事の特定も可能です。 新しいツールで、データを より幅広く捉えることができます。 膨大な気象情報を分析できるのと同様に 、数百万件のツイートを分析でき、 情報をリアルタイムで確認できます。 ここで覚えておくべき原則は、 データが多いほど、 予測分析の力と精度が増すということです。 組織は予測分析のアイデアに 大きな魅力を感じるものです。 するとデータサイエンスチームは、 学んで成長する時間が 取れないこともあります。 データを理解せず、 すぐに予測に着手しようとします。 あなたがデータサイエンスチームの メンバーなら、予測の質はデータを どれだけ適切に分析したかで決まると 伝えてください。 未来を予測するためには、 過去を十分に理解する必要があります。 分析に近道はありません。 データについて適切な問いを立て、 統計ツールを使用して 有益なレポートを作成します。 そうすれば、将来を より正確に予測できるでしょう。

目次