コース: データ分析 入門1:基本

フラットファイルを扱う

コース: データ分析 入門1:基本

フラットファイルを扱う

データとして、 Excel 形式や CSV 形式のファイルを 受け取ることもあります。 このようなファイルは フラットファイルと呼ばれ、 データとは切り離されています。 フラットなデータとは、 どういう意味でしょうか? データが格納されているシステムに 直接接続されていないため、 システムのデータが更新されても、 フラットファイルのデータは 更新されません。 データを更新するには、 別のファイルが必要になります。 システムからエクスポートした フラットファイルのひとつである CSV ファイルは、 データをカンマ区切りで扱う テキストファイルです。 カンマ以外に、タブ区切りや固定幅などで データを分割する形式もあります。 CSV ファイルは、 デフォルトで Excel で開きます。 Excel でデータの加工処理や分析を 行う人は多いと思います。 それは、Excel には、 データを扱うための機能が 多く提供されているからです。 Power Query も機能のひとつです。 整えたリストデータがあるとします。 そこに更新用の新しいリストを 受け取りました。 元のリストのデータを 更新する必要があります。 Excel のどのような機能を使うと 可能でしょうか? リストの読み込みから更新までを マクロで自動化することも可能です。 しかし、ここでは、 Power Query を使ったデータ処理を 紹介していきます。 05_03 フォルダ内を表示しています。 このフォルダには、 Research Project_March と Research Project_MarchandApril という 2つの CSV ファイルがあります。 Research Project_March ファイルは、 カンマ区切りのデータファイルです。 この3月のファイルが 最初のデータになります。 そして、フォルダ内には 翌月4月のファイルがあり、 翌月以降も新しいファイルが 送られてきます。 Power Query を知らなければ、 おそらく、追加された月毎に ファイルを開き、 データを最初のファイルにコピーして 貼り付けることになるでしょう。 ここでは、Power Query を使った 操作方法を見ていきましょう。 Excel で空白のブックを準備します。 「データの取得」をクリックし、 「ファイルから」> 「テキストまたは CSV から」の順に クリックします。 05_03 フォルダ内の Research Project_March を選択し、 「インポート」をクリックします。 これで、CSV ファイルと接続できました。 データが表示されます。 右下の「読み込み」ボタンを クリックします。 Power Query によって CSV データが Excel シートに 読み込まれました。 画面右には 126 行のデータが 読み込まれたことが表示されています。 次に、ピボットテーブルを使って 分析します。 「ピボットテーブルで集計」をクリックし、 OK をクリックします。 「回答者 ID」の列名を 「値」にドラッグします。 配置した「回答者 ID」をクリックし、 「値フィールドの設定」をクリックし、 「個数」を選択し、 OK ボタンをクリックします。 解答者 ID の合計数が表示されます。 次に、「開始日」を列にドラッグし、 「現在の年齢は?」を行にドラッグします。 「ピボットテーブルのフィールド」を 閉じます。 ピボットテーブルを見ると、 回答者の年齢毎のアンケートに 回答した時期が表示されています。 データを分析し可視化できました。 この後、4月になると、4月のデータを 追加していくことになります。 データの追加は、 Power Query の機能で 簡単に操作できます。 操作方法を見ていきましょう。 画面右、「クエリと接続」内の Research Project_March を 右クリックし、 「編集」をクリックします。 Power Query エディタ画面が 表示されます。 右上の「データソース設定」を クリックします。 現在のデータソースは、 3月の CSV です。 次に、左下の「ソースの変更」を クリックし、 「参照」をクリックします。 4月の CSV データを追加します。 Research Project_MarchandApril を 選択し、 「インポート」をクリックします。 OK をクリックし、 「閉じる」をクリックします。 画面左下に 126 行が表示されています。 左上の「プレビューの更新」を クリックします。 データが 480 行になりました。 そして、「閉じて読み込む」を クリックします。 ピボットテーブルがある Sheet2 を表示し、 データを更新します。 「ピボットテーブル分析」タブを選択し、 「更新」をクリックします。 「クエリと接続」を閉じ、 データを確認しましょう。 4月のデータが表示されています。 簡単にデータソースの追加ができました。 次に、別のデータソースへの接続を 見ていきましょう。 新しい空白のブックを開きます。 05_03 フォルダ内の Research Project_Data フォルダを開くと、 ファイル名の末尾に日付の付いた CSV ファイルが複数あります。 3 月 23 日、 3 月 27 日、 3 月 30 日、 4月1日のデータです。 それぞれのファイルは、 同じ列見出しで構成されています。 また、その日付時点での最新データです。 フォルダ内に新しい日付のデータが 追加されても、 自動的にデータが追加されるよう、 Power Query ではフォルダ全体を 読み込むように設定します。 Excel シート画面に戻ります。 「データ」タブ> 「データの取得」の順にクリックし、 「ファイルから」>「フォルダーから」を クリックします。 05_03 フォルダ内の Research Project_Data フォルダを 選択し、 「開く」をクリックします。 画面右下の「結合」を選択し、 「結合および読み込み」をクリックします。 データの一部が表示されます。 フォルダ内のファイルは、 すべて同じ列見出しで構成されています。 OK ボタンをクリックすると、 Research Project_Data に 246 行のデータが 読む込まれたことがわかります。 A 列の Source.Name 列を見ると、 データソースが CSV ファイルであることが分かります。 A 列のドロップダウンリストを クリックすると、 4つの CSV ファイルがデータセットに 取り込まれていることがわかります。 今後、4 月 15 日など 別日のデータを入手することがあれば、 そのファイルを Research Project_Data フォルダに 保存し、 Excel シート上でデータを更新すれば、 追加された日にちのデータも 含まれることになります。 Excel の機能を使用することで フラットファイルを簡単に データセットに取り込むことができます。

目次