コース: データサイエンス入門:基本を理解する

ETLでデータウェアハウスにデータを取得する

コース: データサイエンス入門:基本を理解する

ETLでデータウェアハウスにデータを取得する

データサイエンスの概念の土台は、 企業が長年にわたり収集、分析してきた 経験に基づくものが多く、 リレーショナルデータベースの 管理システムは企業データの要です。 RDBMS(アールディービーエムエス)の 用語は理解しておきましょう。 これらはデータウェアハウスに 関わっている時によく出てきます。 エンタープライズデータウェアハウスは、 データの分析に重点を置いた 特殊なリレーショナルデータベースです。 従来のデータベースは、 オンライントランザクション処理、 OLTP(オーエルティーピー)向けに 最適化されています。 データウェアハウスは、 オンライン分析処理、 OLAP(オーラップ)に使われます。 典型的なデータベースは、データの リアルタイム処理に重点が置かれ、 データウェアハウスは、起きたことの 分析に重点が置かれています。 靴を売るウェブサイトを 持っているとします。 データベースエンジニアを雇い、 様々なテーブルを作り、関係付けました。 顧客の住所のテーブル、靴のテーブル、 配送オプションのテーブルなどです。 サーバはSQL(エスキューエル)文で データを検索します。 顧客が靴を購入すると、 その情報に配送先の情報が加わり、 配送オプションが提示されます。 高速かつ効率的に処理したいものは、 OLTP(オーエルティーピー) データベースです。 顧客が靴を見つけたら、 届け先を結び付けて配送手続きを行います。 これが迅速に処理できるよう 最適化する必要があります。 顧客はリアルタイム処理を期待します。 ここで、データウェアハウスにデータを 毎日送るスクリプトを用意します。 データウェアハウスは 分析処理用に最適化されています。 レポート作成に重点を置いた OLAP(オーラップ)データベースです。 レポートを作成し、顧客の住所と、 購入した靴の種類に 関係があるかどうかを確認します。 暖かい地域の人は明るい色の靴を 購入する傾向があると分かった場合、 その情報を利用して ウェブサイトの表示方法を変更します。 暖かい地域の顧客には、ページ上部に 明るい色の靴を表示するように変更します。 さて、このウェブサイトが成功していて、 アパレル販売会社に買い取られたとします。 この会社は自社のウェブサイトのために 使っているデータウェアハウスに、 そのサイトのデータを統合したいと 考えます。 そのために、データの抽出、変換、ロードを 意味するETL(イーティーエル)と 呼ばれる処理を行います。 ウェブサイトからデータをプルして データウェアハウスにロードします。 靴のウェブサイトのデータを 標準的な形式で抽出して、 自社のデータウェアハウスで 使える形に変換します。 スキーマが異なっている可能性もあるので データアナリストは、データのスクラブと 結合に最も時間を使うでしょう。 変換したデータは、 データウェアハウスにロードします。 データサイエンスチームでも 似たような課題が生じ、 同じ用語を使うでしょう。 データウェアハウスのデータを ETL(イーティーエル)して Hadoop(ハドゥープ)クラスターに 移動するような場合です。 つまり、データをクラスターに移す時には、 変換が必要になるということです。 多くの組織がHadoop(ハドゥープ)を データウェアハウスの代わりと 考えているということもあります。 彼らはデータを ETL(イーティーエル)処理して Hadoop(ハドゥープ)クラスターに移し、 データウェアハウスを 段階的に廃止したり停止したりします。 組織は安価なハードウェアを使って コストを削減したいと考えているのです。 データウェアハウスは高価だからです。 どちらを使う場合でも、 RDBMS(アールディービーエムエス)の用語や 概念は必ず出てきます。 用語にひるまないようにしてください。 今でも、データサイエンスの大半は データ収集です。 意味深い問いを立てる前に、 ETL(イーティーエル)の打ち合わせに 何時間もかかります。 用語や課題を理解していれば、 必要なデータが得られる可能性が 高くなります。

目次