コース: データ分析 入門1:基本

エクセルのデータセットを学ぶ

コース: データ分析 入門1:基本

エクセルのデータセットを学ぶ

データを前にすると、 どのようなツールを使って、 データを加工したり、 分析したりするかに、注目します。 しかし、新しいデータを入手したら、 まず最初にすることは、 そのデータをしっかりと見ることです。 「Learn Data」という名前の Excel ブックを開いています。 OrderData という名前の シートがあります。 社員 ID、姓、名の フィールドがあります。 おそらく、社員データだと読み取れます。 顧客 ID、注文 ID もあります。 注文に関するデータのようです。 数量、価格、製品 ID、 製品名などを見ると、 より注文データだとわかります。 注文日、発送日もありますね。 最初に気づいたことのひとつは、 数字がすべて右揃えに見える ということです。 配置メニューを見ると、 右揃えに設定されていないことが わかります。 つまり、数字は 通常右寄せで表示されるものだ ということです。 注文日を見てください。 日付のように見えますが、 「書式設定」を見ると、 日付になっていることがわかります。 新しいデータを見るとき、 列見出しにも注意を払います。 列数はいくつありますか? 右にスクロールし、 列数を自分で数えることはしません。 Excel が教えてくれます。 まず、A1 を選択し、 Shift キーと Ctrl キーを 同時に押しながら、 右矢印キーを押します。 そして、画面右下に表示される 「データの個数」を確認すると、 14 と表示されています。 つまり 14 個のフィールドがある ということです。 データの個数が表示されない場合は、 画面右下で右クリックし、 「データの個数」を選択して、 表示されるように 設定を変更することができます。 できれば、「平均」「データの個数」 「数値の個数」 「最小値」「最大値」は 常に確認できる状態にしておくことを おすすめします。 表示されるデータは、 基本的な集計情報です。 データの個数は、 数字、文字を問わず、 データの入力されている セルの数をカウントし、 数値の個数は、 数字が入力されている セルの個数をカウントします。 現在 14 の列があり、 意味のある列見出しが 付けられているようです。 実際、どれだけの行数があるのでしょうか。 確認しましょう。 Ctrl キーを押しながら、 A を押します。 すると、Excel がデータセットとして 認識する全範囲を選択してくれます。 ここで重要なのは、 空白の列や空白の行があると、 そこまででデータセットの認識が 止まってしまうということです。 そこで、画面の表示倍率を縮小し、 空白の行や列がないことを確認します。 問題ないようです。 では、Ctrl キーを押しながら、 「ホーム」を押して、 セル A1 に戻ります。 表示倍率の中央をクリックします。 次に、行数を確認しましょう。 データの個数は、すべてのセル数を、 数値の個数は、 数字の入力されたセル数を カウントしたことを思い出してください。 セル A1 から、 Shift キーと Ctrl キーを押しながら、 下向き矢印キーを押します。 3685 行まで、選択されました。 画面右下の自動計算結果を 確認しましょう。 データの個数は、 3685 と表示されています。 数値の個数は、 3684 と表示されています。 列見出し、ヘッダーは 文字のためカウントされていません。 つまり、実際のデータは、 3684 件のレコードだということです。 Ctrl キーを押しながら ホームキーで、 セル A1 へ戻ります。 では、このデータセットの 合計金額を知りたいという場合は、 どうしますか? 行列を追加するのではなく、 ただ合計を見たいだけなのです。 列番号、G をクリックすると、 右下の自動計算領域に 合計が表示されます。 合計金額は、 約 200 万だとわかります。 このことから、 もし分析結果のレポートに、 400 万や 800 万などの 合計金額が表示されることがあれば、 何かが間違っていることに 気づけます。 元となったデータ、生データでは すべての合計をしても、 200 万程度にしかならないからです。 このように、 情報を把握しておくことは重要です。 データの重複も、注意すべき点です。 注文 ID に注目してください。 重複する注文 ID がないか、 データチェックをしましょう。 列番号、E をクリックします。 「ホーム」タブから 「条件付き書式」をクリックし、 「セルの強調表示ルール」を ポイントし、 「重複する値」をクリックします。 すると、重複している注文 ID を どのような書式設定で表示するかを 設定する画面が表示されます。 変更せず、薄い赤色で 塗りつぶすことにします。 「OK」をクリックします。 重複しているデータが一目瞭然です。 もし、注文 ID ごとで 合計を計算するには、 注文 ID ごとにグループ化してから 合計を出す必要があります。 この気付きは、貴重な情報です。 条件付き書式を解除します。 「条件付き書式」のメニューから、 「ルールのクリア」をポイントし、 「シート全体からルールをクリア」を クリックします。 セル A1 をクリックします。

目次