コース: データサイエンス入門:基本を理解する

大量のゴミを取捨選択する

コース: データサイエンス入門:基本を理解する

大量のゴミを取捨選択する

非構造化データは 新たな課題をもたらします。 まず1つは、データの一部を 削除するかどうかという問題です。 データサイエンスはデータに 科学的手法を適用することなので、 興味深い問いにつなげたいものです。 そのためには、問いたくなった時に 制約が出ないかを見極める必要があります。 データの保持と破棄に関して 説得力のある意見があります。 一部のデータアナリストは、 どんな問いを発したくなるか わからないと主張します。 大量のデータを保持する費用は、 ギガバイトあたりわずか数セントです。 破棄を検討するのではなく、 全部保持することにすればよいという 考えです。 長時間の会議よりも、ハードドライブを 買うほうが安いかもしれません。 一方、データは破棄するべきだと 主張するアナリストもいます。 クラスターにはゴミがあります。 ゴミが多いほど、興味深い結果を 見つけるのが難しくなります。 これはデータのノイズと呼ばれ、 大変厄介です。 多くの組織がこの問題に取り組んでいます。 大量のゴミをどうしたらいいでしょうか。 私は前の職場でこの問題に直面しました。 その会社では自動車の潜在顧客と販売店を つなぐウェブサイトを持っており、 ウェブサイトの訪問者が閲覧したものを すべて記録するタグ付けシステムを 作りました。 画像にマウスオーバーすると データベースに記録されます。 閲覧したページやクリックした リンクの記録も収集されます。 タグは数千個になり、それぞれの トランザクションは数百万になります。 しかし、タグでどのようなデータを 集めているか 知っている人は数人しかおらず、 レポートの作成は困難でした。 さらにタグをマウスオーバーした人数は 分かっても、その意味が 分かる人はわずかでした。 また、このタグ付けシステムは 非構造化データにも使われました。 広告とフラッシュ動画です。 タグを画像に関連付け、 トランザクションにも関連付けました。 これで、クリックされた画像が分かります。 画像のページ内の位置を示す タグもあります。 すべてクラスターに保存しました。 すると一部の人が、 大半のデータが使われず、 タグシステムを理解している数人しか データが分からないと主張しました。 広告は常に変わるので、 タグの名前の変更に手を付けました。 しかし、多くのデータが 古くなっていました。 またハドゥープクラスターに 格納できる量から考えて、 大した量ではないという意見もありました。 古いデータが数ギガバイトあっても 気にする人はいません。 消す手間のほうが大変です。 このような課題にも 対処しなくてはなりません。 次のことを忘れないでください。 正しい答えというものはありません。 データサイエンスチームは 何が最適か判断するだけです。 全部保持することにした場合、 レポートを作る時に 少し努力が必要になるでしょう。 フィルタリングが増えたり、 ノイズが多めだったりします。 ゴミを削除することにした場合、 クラスターはきれいな状態になるでしょう。 しかし、いつか後悔するようなものを 捨ててしまう可能性もあります。 クローゼットの片付けに似ています。 昔のデザインが また流行するかどうかは分かりません。 大量にあると、 何を持っていたか忘れることもあります。 最も重要なことは、チームで どちらにするかを決定することです。 数か月で変わるような データポリシーは不要です。 最初に、すべてを保持するか、 一部を破棄するかを決定します。 何を捨てるかは、チームで話し合って 全員が同意するようにします。 データ保持ポリシーを規定していないと、 データが破損する恐れがあります。 何を捨てたか分からなくなると、 レポートの解明が難しくなります。 組織にとって何が最適か、 早めに決めるようにしてください。

目次