コース: データ分析 入門1:基本

データのフィールドとタイプについて学ぶ

コース: データ分析 入門1:基本

データのフィールドとタイプについて学ぶ

データについて知っておくべき 重要な3つの言葉があります。 それは、フィールド名、データ型、値です。 多くの人がデータとして見ているものは 値です。 値とは、私たちが入力し 演算し、出力するものです。 アンケートフォームなどで 氏名の入力欄があれば 氏名の値を入力します。 この氏名という値は テキストデータです。 フィールドとは列のことです。 フィールドに格納する値により どのようなデータ型を定義するかを 決める必要があります。 フィールドに適切なデータ型が設定され、 正しい値を抜け漏れなく入力して 利用します。 しかし、日々扱うデータは フィールドが充分に検討されていないまま 運用されていることも 往々にしてあります。 フィールドの名前も大切です。 例えば、フィールド名に 「名」、「姓」、「職種」といった具合に 付けることができます。 フィールド名は フィールド内で扱っているデータが どういったものかを イメージできるような 名前を付けることが望ましいです。 しかし、必ずしもそのように なっていないこともあります。 フィールド名は、ヘッダとも呼ばれ 通常は列の一番上の行に表示されます。 Excel で作成した際には フィールド名だとわかるように 最低限、太字で表示するなどします。 データ型によって データを扱う際に、何ができるのか、 何をすべきかが決まってきます。 すべてのデータにはデータ型が必要です。 具体的には、テキストや数値、 日付といった具合です。 実際にデータを扱うようになると データ型にはさらに種類が 多くあることがわかってきます。 例えば、システムで利用するデータは 多くがデータベースで管理されています。 データベース内で データはテーブルという表形式で管理され、 テーブル内のフィールド設定は 開発者が定義します。 フィールド名が作成され、 データ型が設定されています。 従業員データの 社員国籍 ID データを見てみましょう。 データ型が「短いテキスト」、 テキスト型であることがわかります。 しかし、実際のデータを見ると 数字のように見えませんか。 次の点に注目してください。 テーブル内のデータは デフォルトでは、数字は右揃えに テキストは左揃えに表示されます。 しかし、 左揃えに表示されている数値を見ると 自動的にそれがテキストだと 思い込んでしまうことがあります。 このデータをエクスポートすると 元のデータ型で保存されます。 エクスポートしたデータを Excel で見てみましょう。 「社員国籍 ID」列を見ると 左揃えで表示され 緑の旗も表示されています。 そのうちのひとつをクリックすると その値が、 テキスト型として保存されている 数字であるということがわかります。 繰り返しますが、 このデータは左揃えでテキストですが、 その他の列の数値は すべて右揃えです。 元のデータベースの設定詳細まで 確認できるわけではありませんが データを見て 何のデータ型であるかを 判断することができます。 例えば「色がフィールド名で、 値が赤のデータは何ですか」と聞かれれば 「単語」や「テキスト」と答える人が 多いのではないでしょうか。 「文字列」と答える人も いるかもしれません。 「1」や「5」や「45,981」を見れば 「数字」だという人が多いと思います。 また「11/20/2025」という データを見ると カレンダーや予定など 「日付」と考えることが多いと思います。 データを見て それが何であるかを考えるとき データ型について 考えることにつながります。 Excel 上で 「11/20/2025」と 「45,981」は同じデータ型です。 違うデータ型のように見えるのは それぞれの書式、 フォーマットに違いがあるからです。 見てみましょう。 B2 をクリックし 上部にある「表示形式」メニューを見ると 上から順に数字が並び 「短い日付形式」の所に 「2025/11/20」と 表示されていることに 気づくでしょう。 Excel 上で入力した数字が 日付として解釈されてしまったという 経験をしたことがあるという方も いるかもしれません。 次に、セル上で分数を入力していると 何が起こるかを見てみましょう。 「1/4」と入力します。 これは4分の1という意味で 入力しています。 しかし、Excel は 日付だと解釈してしまいました。 つまり分数として入力した数字を Excel は自動的に日付と判断し 日付に適したフォーマットで 表示してくれました。 Excel が行っていることは シリアル値と思われるデータを 日付フォーマットで設定し 表示しているということです。 言い換えると、 Excel が日付を通し番号に変換し 数学的に使えるようにしているのが シリアル値です。 フォーマットを修正するには フォーマットを数字に戻す必要があります。 操作をご覧ください。 セルをクリックし「表示形式」から 「標準」または「数値」を選択します。 小数点以下の桁数を減らします。 データアナリストは 一般的なデータ型を 知っておく必要があります。 具体的には、 テキスト、日付、時刻、 数値といったデータ型や、 「真か偽」「『はい』か『いいえ』」を表す ブール型です。 使用するシステムやデータベースなど それぞれにデータ型の種類や、 数も異なります。 テキスト型を例に見てみると Microsoft Access には 短いテキスト、長いテキストという 2つのデータ型があります。 そしてデータベースには、 テキストを表すデータ型が さらに数多く存在しています。 現実には無意味なフィールド名や 不適切なデータ型の設定により 正しくデータが 入力できないということがあることを データアナリストや 現場で働く人々は知っています。

目次