コース: データサイエンス入門:基本を理解する

ビッグデータの問題に対処する

コース: データサイエンス入門:基本を理解する

ビッグデータの問題に対処する

ビッグデータとデータサイエンスは 同一視されることが多くあります。 データサイエンスはデータに 科学的手法を適用するもので、 必ずしも多くのデータが 必要なわけではありません。 ビッグデータは新しい強力な データソースとなり、 小規模なデータセットでは 答えの出ない問いを立てることができます。 大抵の場合、統計分析期間中の データポイントが多いほど、 強力なソースになります。 ビッグデータと聞くと 60 年代のホラー映画を連想します。 不気味なデータの塊に 飲まれそうになって、 叫んでいる人を想像するでしょう。 実はビッグデータは名前ではありません。 NASA の当初の論文では 名詞として捉えられていませんでした。 2つの解釈が可能です。 「ビッグデータ」の問題と、 大きな「データの問題」です。 論文全体を読むと、 問題に重点が置かれています。 ビッグデータについてではなく、 保存するには大きすぎるデータの問題です。 マッキンゼーのレポートにも出てきます。 このレポートには、ビッグデータとは 汎用のハードウェアやソフトウェアの 能力を超えるデータと書かれています。 なぜ名前ではなく問題と 捉えることが重要なのでしょうか。 ビッグデータに取り組もうとする 企業の多くが、 実際にはビッグデータを持っていません。 データが多いと大きいと感じますし、 保存と収集の課題を問題だと 思うかもしれませんが、 これもビッグデータの問題ではありません。 ビッグデータの問題かどうかは、 次の4点で判断します。 4つの特徴として覚えましょう。 次の質問に答えてください。 膨大な量のデータがあるか。 多種多様なデータが含まれるか。 データは高速で入ってくるか。 収集しているデータの確実性は高いか。 役立つ知識や洞察をもたらすものか。 この4つすべてに当てはまるデータは、 ビッグデータになります。 大量のデータとは、 どのくらいのことでしょうか。 簡単に考えてください。 毎日ペタバイト単位のデータを 収集していたら、十分な量と言えます。 これが必ずしも問題 というわけではありません。 近い将来には、1エクサバイトだと 問題になるかもしれません。 データの多様性も、 迷うところかもしれません。 多様性については少し注意が必要です。 例えば証券取引所では、 毎日何百万件もの取引を扱います。 膨大な量のデータになるでしょう。 それが高速で入ってきます。 株価情報はミリ秒単位で流れ、変動します。 しかしすべて同じ種類のデータです。 大抵は銘柄記号と価格だけです。 ほとんどがテキストで、写真や音声、 ニュース記事などは収集しません。 従ってビッグデータの問題ではありません。 大量のデータを収集しますが、 導入している既存の技術で 十分に処理できます。 最後にデータの確実性です。 自社に関するツイートや投稿を すべて収集するデータベースを 作成するとします。 大量の動画、写真、テキストを 毎日クラスターに収集します。 製品に対する反応を見るため、 レポートを作成しました。 しかし、顧客の気持ちを判断できるデータが 含まれていないことに気付きました。 価値のないデータを収集していたのです。 ビッグデータの4つの特徴を思い出せば、 それがビッグデータの問題かどうかを 確認することができます。 興味深いビッグデータの問題に、 自動運転の自動車の課題があります。 収集するデータの種類を検討すると、 膨大な量の動画、音声、 交通情報、GPS データがあります。 すべてがリアルタイムかつ高速に データベースに入ってきます。 次に、どのデータが確実性が 高いかを特定します。 道端で人が叫んでいる時、 それは競技への声援でしょうか。 危険を知らせているのかもしれません。 人間なら瞬時に判断します。 自動運転の車は、動画、音声、交通情報を 組み合わせて処理し、停止するか、 叫び声を無視するかを 決定しなくてはなりません。 これがビッグデータの問題です。 データサイエンスとの違いを 思い出してください。 ビッグデータがあると 意味深い問いができますが、 ビッグデータがなくても 問いを立てることはできます。 科学的手法に注目すれば、 データの量に関係なく 常に最良の問いを立てられます。

目次