コース: データサイエンス入門:基本を理解する

半構造化データを共有する

コース: データサイエンス入門:基本を理解する

半構造化データを共有する

データサイエンスチームは 多様なデータを扱います。 構造化データには リレーショナルデータベースが 適しています。 定義済みのスキーマに 構造化データを合わせるには、 厳密なデータモデルが必要です。 列と行が固定された スプレッドシートに似ています。 構造化データはレポートの作成が容易です。 構造化クエリ言語、エスキューエルで データベースからデータを取得し、 標準的な形式で表示できます。 リレーショナルデータベースに 保存された構造化データは、 整然として見えます。 瓶に入ったスパイスが 並んでいるような感じです。 どこに何があるか正確に分かっています。 これほどシンプルなアプリケーションは なかなかありません。 靴のウェブサイトに戻りましょう。 リレーショナルデータベースを使っていて 4つのテーブルがあります。 靴、顧客名、顧客の住所、 配送オプションのテーブルです。 すべての構造化データが データモデルに適合します。 日付と郵便番号は標準の形式です。 処理は円滑に行われ、何も問題ありません。 配送業者からメールが来ました。 配送業者のデータベースに情報を 直接追加できれば、 コストを大幅に削減できると言っています。 そこで相手のデータベースから 地域コードを取得して注文に追加し、 新しいレコードを作ります。 双方のデータベースは似ているので、 簡単なはずです。 すべて構造化データで、 データベース内にあります。 問題は、こちらと配送業者の スキーマが違うことです。 郵便番号をジップコードと呼んでいても、 配送業者はポスタルコードと呼びます。 こちらは靴の送り先が商用でも 個人でもかまいません。 また、戸建か集合住宅かも区別しません。 しかし配送業者は、 料金に関わるので気にします。 お互いのスキーマが違っていても、 構造化データを やり取りできる方法が必要です。 解決には、配送業者のデータと スキーマを取得します。 配送業者から送られた住所に フィールド名とデータモデルを加えます。 顧客が靴を注文すると、 こちらから配送業者のデータベースに 郵便番号を送信します。 すると、配送業者のフィールド名で、 住所などのデータが返されます。 郵便番号のフィールド名は ポスタルコードです。 これが新しいデータに加えられます。 配送業者のデータには 構造化データの特徴があり、 よく整理されています。 標準の形式が使われ、 テキストフィールドにはテキスト、 日付フィールドには日付が入っています。 ただしデータには スキーマが含まれています。 配送業者は好きな名前を使用できます。 このようなデータは 半構造化データと呼ばれます。 半構造化データは 構造化データよりも一般的です。 構造化されていますが、 構造はソースによって異なります。 半構造化データは日常でよく扱っています。 例えばメールです。 一貫した構造になっています。 必ず送信者と受信者がありますが、 フィールド名と内容は 異なる場合があります。 データサイエンスチームは 半構造化データを扱う機会が多く、 メールやウェブログのほか、 ソーシャルネットワークサイトも 分析します。 半構造化データの操作方法は いくつかあります。 その1つが XML です。 以前からある半構造化データ型で、 情報の交換に使われます。 半構造化データの交換に使われる 新しい方法に、 ジャバスクリプトオブジェクト表記法、 略して JSON があります。 ウェブサービスで好まれる形式です。 つまり、配送業者からは、 ジェイソン形式でデータが 返される可能性があります。 半構造化データを使うと、 より意味深い問いを立てることができます。 顧客の評価に関心があるとします。 靴を購入した顧客は 満足しているでしょうか。 一部のソーシャルメディアサイトから、 半構造化データを取得できます。 そのデータを、自分たちが持っている 顧客の構造化データと組み合わせます。 顧客が満足していなかったら、 お詫びのクーポンを送ることができます。 構造化データと半構造化データを 組み合わせると、 このような問いが可能になります。

目次