フラットファイルを扱う

コース: データ分析入門１：基本

フラットファイルを扱う

“

データとして、 Excel 形式や CSV 形式のファイルを受け取ることもあります。このようなファイルはフラットファイルと呼ばれ、データとは切り離されています。フラットなデータとは、どういう意味でしょうか？データが格納されているシステムに直接接続されていないため、システムのデータが更新されても、フラットファイルのデータは更新されません。データを更新するには、別のファイルが必要になります。システムからエクスポートしたフラットファイルのひとつである CSV ファイルは、データをカンマ区切りで扱うテキストファイルです。カンマ以外に、タブ区切りや固定幅などでデータを分割する形式もあります。 CSV ファイルは、デフォルトで Excel で開きます。 Excel でデータの加工処理や分析を行う人は多いと思います。それは、Excel には、データを扱うための機能が多く提供されているからです。 Power Query も機能のひとつです。整えたリストデータがあるとします。そこに更新用の新しいリストを受け取りました。元のリストのデータを更新する必要があります。 Excel のどのような機能を使うと可能でしょうか？リストの読み込みから更新までをマクロで自動化することも可能です。しかし、ここでは、 Power Query を使ったデータ処理を紹介していきます。 05_03 フォルダ内を表示しています。このフォルダには、 Research Project_March と Research Project_MarchandApril という２つの CSV ファイルがあります。 Research Project_March ファイルは、カンマ区切りのデータファイルです。この３月のファイルが最初のデータになります。そして、フォルダ内には翌月４月のファイルがあり、翌月以降も新しいファイルが送られてきます。 Power Query を知らなければ、おそらく、追加された月毎にファイルを開き、データを最初のファイルにコピーして貼り付けることになるでしょう。ここでは、Power Query を使った操作方法を見ていきましょう。 Excel で空白のブックを準備します。「データの取得」をクリックし、「ファイルから」＞「テキストまたは CSV から」の順にクリックします。 05_03 フォルダ内の Research Project_March を選択し、「インポート」をクリックします。これで、CSV ファイルと接続できました。データが表示されます。右下の「読み込み」ボタンをクリックします。 Power Query によって CSV データが Excel シートに読み込まれました。画面右には 126 行のデータが読み込まれたことが表示されています。次に、ピボットテーブルを使って分析します。「ピボットテーブルで集計」をクリックし、 OK をクリックします。「回答者 ID」の列名を「値」にドラッグします。配置した「回答者 ID」をクリックし、「値フィールドの設定」をクリックし、「個数」を選択し、 OK ボタンをクリックします。解答者 ID の合計数が表示されます。次に、「開始日」を列にドラッグし、「現在の年齢は？」を行にドラッグします。「ピボットテーブルのフィールド」を閉じます。ピボットテーブルを見ると、回答者の年齢毎のアンケートに回答した時期が表示されています。データを分析し可視化できました。この後、４月になると、４月のデータを追加していくことになります。データの追加は、 Power Query の機能で簡単に操作できます。操作方法を見ていきましょう。画面右、「クエリと接続」内の Research Project_March を右クリックし、「編集」をクリックします。 Power Query エディタ画面が表示されます。右上の「データソース設定」をクリックします。現在のデータソースは、３月の CSV です。次に、左下の「ソースの変更」をクリックし、「参照」をクリックします。 4月の CSV データを追加します。 Research Project_MarchandApril を選択し、「インポート」をクリックします。 OK をクリックし、「閉じる」をクリックします。画面左下に 126 行が表示されています。左上の「プレビューの更新」をクリックします。データが 480 行になりました。そして、「閉じて読み込む」をクリックします。ピボットテーブルがある Sheet2 を表示し、データを更新します。「ピボットテーブル分析」タブを選択し、「更新」をクリックします。「クエリと接続」を閉じ、データを確認しましょう。４月のデータが表示されています。簡単にデータソースの追加ができました。次に、別のデータソースへの接続を見ていきましょう。新しい空白のブックを開きます。 05_03 フォルダ内の Research Project_Data フォルダを開くと、ファイル名の末尾に日付の付いた CSV ファイルが複数あります。 3 月 23 日、 3 月 27 日、 3 月 30 日、４月１日のデータです。それぞれのファイルは、同じ列見出しで構成されています。また、その日付時点での最新データです。フォルダ内に新しい日付のデータが追加されても、自動的にデータが追加されるよう、 Power Query ではフォルダ全体を読み込むように設定します。 Excel シート画面に戻ります。「データ」タブ＞「データの取得」の順にクリックし、「ファイルから」＞「フォルダーから」をクリックします。 05_03 フォルダ内の Research Project_Data フォルダを選択し、「開く」をクリックします。画面右下の「結合」を選択し、「結合および読み込み」をクリックします。データの一部が表示されます。フォルダ内のファイルは、すべて同じ列見出しで構成されています。 OK ボタンをクリックすると、 Research Project_Data に 246 行のデータが読む込まれたことがわかります。 A 列の Source.Name 列を見ると、データソースが CSV ファイルであることが分かります。 A 列のドロップダウンリストをクリックすると、４つの CSV ファイルがデータセットに取り込まれていることがわかります。今後、4 月 15 日など別日のデータを入手することがあれば、そのファイルを Research Project_Data フォルダに保存し、 Excel シート上でデータを更新すれば、追加された日にちのデータも含まれることになります。 Excel の機能を使用することでフラットファイルを簡単にデータセットに取り込むことができます。

フラットファイルを扱う

コース: データ分析入門１：基本