コース: データサイエンス入門:基本を理解する

非構造化データを収集する

コース: データサイエンス入門:基本を理解する

非構造化データを収集する

ここまでを振り返りましょう。 一般に、データサイエンスチームは 3つの種類のデータを扱います。 まず構造化データです。 スプレッドシートのようなもので、 一定の秩序と、一貫した形式があります。 通常はリレーショナルデータベースに 格納されます。 次に、半構造化データです。 構造化されたデータですが、 フィールド名を柔軟に変更できます。 最後は、最も一般的な種類の 非構造化データです。 その他すべてのデータです。 データの8割が非構造化データだと 推測する人もいます。 もっともな話です。 日常にあるデータを考えてください。 ボイスメール。 フェイスブックに投稿した写真。 ワードのメモ、 パワーポイントのプレゼンテーション。 ウェブ検索では、 対象はほとんど構造化されていません。 猫と検索すると、 動画、歌、本などが表示されます。 これらのデータに 共通するのは何でしょうか。 重要な課題の1つです。 ひとことで言えば、スキーマレスです。 スキーマとは、データのフィールド、 テーブル、関係などを表す マップのようなものです。 非構造化データにはこれがありません。 非構造化データの形式は ファイルによって異なります。 ワード文書には形式が 設定されていることがありますが、 汎用性のあるものではなく、 他のテキスト文書では適用されません。 そのため、通常ワード文書は 他のアプリケーションでは編集できません。 これは既定のデータモデルが ないことも意味します。 検索に使える一貫した規則がありません。 これらのタイトルや内容を把握するには どうしたらいいでしょうか。 PDF やワード文書が混在している場合は どうなるでしょうか。 それぞれ独自の形式を持っていて、 文書のタイトルを示すフィールドは ありません。 これには、Google などの 検索サービス会社が 長年取り組んできました。 形式が様々で、一貫したデータモデルのない データをどうすべきか。 その成果は検索するたびにわかります。 ある言葉を検索すると、 テキストや動画など、 多様なファイルが表示されます。 非構造化データの操作は、 データサイエンスで 興味深い領域の1つです。 ノーエスキューエルのような 新しいデータベースでは、大きなファイルも すべてを1か所に簡単に保存できます。 あらゆるファイルを ノーエスキューエルクラスターに 格納できるのです。 サーバの数を増やして、似たような ツールやソフトウェアを使用できます。 あらゆるものをキャプチャするのに 適したツールもあります。 クラスター内のデータ処理には ビッグデータ技術を使います。 ハドゥープ、マップリデュース、 アパッチスパークなどです。 再び靴のウェブサイトの話です。 あなたはデータサイエンスチームの 一員になりました。 マーケティングチームや経営陣と協力して、 最初の問いを考えます。 一番の得意客は誰か。 顧客の基本情報をいくつか集めます。 顧客データベースで簡単に 見つけられました。 顧客のメールアドレスと、 居住地域の情報です。 それを基に顧客のソーシャルネットワークの 投稿をクロールします。 非構造化データの収集です。 例えば、顧客がマラソンを 完走した動画を投稿したら、 お祝いのツイートをします。 顧客の友達の投稿を クロールすることもできます。 その人が、グループで 走っている画像を投稿したら、 グループの人物を特定して プロモーションを行うことができます。 一般に 360 度顧客ビューと 呼ばれるやり方です。 人々の行動を促すために 何かできることはないかを探します。 その情報を使用して優良顧客を特定し、 プロモーションを行います。 また、友達がたくさんいる顧客も 何人か見つかるでしょう。 そのような人に特典や割引を 提供することも検討します。 時が経てば、キャプチャできる 非構造化データが増えていき、 さらに高度な問いを立てることができます。 顧客はよく旅行に行くか。 負けず嫌いか。外食する頻度はどうか。 このような問いで顧客とつながりを 持つことで、 より多くの製品を販売できます。 非構造化データは、 日々増えていくリソースです。 今日の行動で、企業が興味を 持ちそうなことは何でしょうか。 会社まで歩こう、とツイートしたら 靴のおすすめが来たり、 雨は嫌だと投稿したら 傘のおすすめが来るかもしれません。 企業が非構造化データを利用すると、 これらが可能になります。

目次