コース: データ分析 入門1:基本

データクリーニングをする

コース: データ分析 入門1:基本

データクリーニングをする

データ分析に適した形で 整ったデータを受け取ることは 多くありません。 ですので、データを受け取って まず初めに行うことは データを整えることです。 データクリーニングとは データを標準化し 整えるプロセスです。 データクレンジングとも呼ばれます。 日常的に Excel を使い データクリーニングを行なっている というケースも多いでしょう。 データクリーニングの具体的な作業として 不要な列を削除することもあるでしょう。 さらに TRIM や CLEAN 関数を使い フィールドから不要なスペースを 削除することもあるでしょう。 また、アルファベットの表記揺れをしたり 大文字に変更することもあります。 さらにひとつにまとまった住所情報を 都道府県とそれ以降の住所、などのように 個々のフィールドに 分割することもあります。 不要なレコード、行、そのものを 削除することもあります。 さらに重複するデータを 削除することもあります。 これまでの話は 単純なデータクリーニングの1種であり 整ったデータを作成するための すべてではありません。 コースの後半でデータを整えるために 有効ないくつかの関数を使用していきます。 データクリーニングで大切なことは 品質のよいデータセットを 作成するというゴールを 念頭において作業を進めることです。

目次