コース: データ分析 入門1:基本

重複を検索・削除する

コース: データ分析 入門1:基本

重複を検索・削除する

データ分析に使うデータセットが 常に正しいデータとは限りません。 受け取ったデータについて、 正しいデータであるかを 確認することは大切です。 何故なら、正しく結合されていなかったり、 相手が要求した内容を理解していない ということもあるからです。 ここでは、データの確認を行う 方法のひとつを学習します。 07_02 フォルダ内の Excel Files OrderDate を表示しています。 クエリを見ていきましょう。 「データ」タブの 「クエリと接続」をクリックします。 クエリ名の上で右クリックし、 「編集」を選択します。 画面を右へスクロールし、 どのようなフィールドがあるか 見ていきます。 「単価」、「注文数」、「割引額」、 「税額」、そして、 「合計注文数」がありますね。 このデータセットに列を追加することは 簡単に行えます。 「列の追加」タブから 「カスタム列」を選択します。 「新しい列名」に「テスト計算」と入力し、 「カスタム列の式」には、 単価を注文数を掛け合わせ、 割引額を引き、 税額を足すようにフィールドを挿入し、 計算式を作成します。 OK をクリックします。 計算結果は売上額と同じになるはずです。 表示された計算結果に 間違いがあることがわかります。 1行目のデータの「売上額」は $7.95 ですが、 「テスト計算」列の結果は $8.586 です。 金額は一致していません。 まず、「テスト計算」列の データ型を「通貨」に変更します。 数字は 8.59 と表示されました。 この数字は税額と売上額を足した数字です。 数字が正しいことがわかります。 では、隣の「合計注文数」の列の 78.76 は どこから来る数字でしょうか。 調べる必要があります。 「ホーム」タブの 「閉じて読み込む」をクリックします。 「売上額」の列は 何らかの合計であることを 示唆していますが、 「テスト計算」の列の数字と 一致していません。 クエリの元データである OrderData シートを選択し、 右へスクロールします。 そして、「データ」タブの 「すべて更新」をクリックします。 Cleaned シートを表示し、 「税額」と「売上額」を選択すると、 $8.58 と確認できましたが、 「合計注文数」は説明ができません。 再びシートを切り替えます。 スクロールすると、 「受注番号」列があることに気付きます。 受注番号があったとしても、 それがデータの中で 繰り返されているかどうかは データを見なければわかりません。 重複しているデータを見つけるために、 条件付き書式を使うことあります。 F列をクリックし、 「ホーム」タブ、「条件付き書式」、 「セルの強調表示ルール」、 「重複する値」の順にクリックします。 すぐに重複している可能性があるデータが 赤くハイライトされているのがわかります。 例えば、6行目と7行目を見ると、 重複していることがはっきりとわかります。 重複があることに気付き、 見つけることは難しいものです。 確認ができたので 「キャンセル」をクリックします。 Cleaned シートへ戻り、 クエリ名を右クリックし、 「編集」を選択します。 ここに表示されているデータは、 販売注文の個々の明細です。 データセット名も わかりやすい名前に変更しましょう。 右クリックして「名前の変更」を選択し、 「販売注文明細」と入力します。 次に、このデータの中から 個々の販売注文情報を表示します。 このデータセットを複製して加工します。 右クリックし、「複製」を選択します。 データセットを複製すると、 まったく同じステップを 踏んでいることがわかります。 複製したデータセットは、 販売注文明細のデータセットとは 完全に切り離されており、 販売注文明細でデータを加工しても 新しいデータセットに 引き継がれることはありません。 名前を「販売注文」と変更しましょう。 明細データは取り除いた状態にします。 そのために、「ホーム」タブの 「列の選択」をクリックし、 必要な列のみ表示されるように 「プロダクトキー」、 「受注ライン番号」、 「単価」、「注文数」、 「割引額」、 「税額」、 「売上額」のチェックマークを外し、 非表示にします。 非表示にしたのは明細に関するデータです。 「テスト計算」列も不要になります。 OK をクリックします。 これで重複を取り除けば、 一意な販売注文リストが表示できます。 列名の左上にあるボタンをクリックして、 「重複の削除」を選択します。 重複データが削除できました。 「ホーム」タブの 「閉じて読み込む」をクリックします。 販売注文明細は 60,351 行の行があり、 そして、27,639 件の 販売注文があることがわかります。 隣のシートは 「販売注文明細」という名前に変更します。 それぞれの「シート」タブを クリックすると、 どのクエリに関連付けられているのかが 右側の表示で確認できます。 データの重複を削除する方法は、 今回紹介したもの以外にも たくさんあります。 Power Query では データを更新すれば ステップは自動的に行われます。 重複したデータを 自動削除することができれば、 いつでも品質の良いデータセットを 得ることができます。

目次