コース: データ分析 入門1:基本

ソースデータを理解する

コース: データ分析 入門1:基本

ソースデータを理解する

ソースデータを理解することも 重要です。 そのデータは、 どこから来たものですか? そして、どのように受け取ったものですか? 業務システムの多くは、 データベースが基盤にあり、 データを取り込んで データベースに入れています。 しかし、データガバナンスの問題や、 システムの構造上、 CSV ファイルのソースデータを 扱うことが難しい場合があります。 ソースデータとは、 システムやデータベースから取得し、 何も加工されていない データのことを指します。 さまざまなソースデータから データを取得することもあります。 ソースデータにアクセスできる 別の人から、 関節的にデータを入手することもあります。 さまざまなデータソースを連携し、 分析し、可視化するスキルは、 データを扱う業務を行う上で、 重要なスキルのひとつです。 データを扱ううえで、 留意することのひとつは、 ソースデータの出所と、入手方法を確認し、 メモしておくことです。 2つ目に、同じデータが 異なるデータソースに存在する 可能性があることを、 意識することです。 例えば、人事システムと 給与システムを例に挙げます。 従業員が入社すると、 最初に人事システムに 従業員情報が登録されます。 この段階で、従業員 ID が作成され、 この従業員 ID は、 福利厚生や情報システムといった 他のシステムでも、 使用されることになります。 人事システムには、 人事情報はありますが、 給与計算に必要なデータはありません。 給与システムは、 給与処理に必要なデータを、 人事システムから取得します。 これにより、従業員は、 給与を受け取ることができます。 給与データは、 専用のシステムにあるため、 人事部には、 給与明細のデータはありません。 もしあなたが、 人事部、経理部のどちらにも所属せず、 採用情報や給与に関するレポート作成を 任されたとしたら、 両方のシステムから データを取得する必要があります。 人事や給与といったデータは、 高度に保護されたデータ構造になっており、 あなたは、直接アクセスする 権限がないかもしれません。 その場合、必要なデータだけを CSV 形式で提供される可能性も あるでしょう。 レポート作成には、 両部門から提供された CSV ファイルのソースデータを 使用することになります。 そして、その CSV ファイルは、 システムから取得したものです。 データの出所を明確にする理由は、 エラーを検出した場合、 誰に報告すべきかを明確にするためです。 システムのアップグレードや変更により、 データに影響が出ることもあります。 データになんらかの異常がある場合、 原因の特定をするためにも、 データの出所は 明確にしておく必要があります。

目次