コース: AI 入門

データを分類する

コース: AI 入門

データを分類する

人は常に何かを分類しています。 文書をフォルダーに入れ、 連絡先を仕事用と プライベートに分けて管理し、 リストはアルファベット順に並べます。 分類がなければ、データは管理できません。 同じように、企業もデータを 分類して管理しています。 航空会社は、よく利用する客と それ以外の客を分け、 小売店は、上得意客を 特別なグループに分け、 検索エンジンは、 購入しそうな人を分けています。 教師あり学習の用途として、 2項分類問題は非常に広く普及しています。 シンプルかつ効果的だからです。 2項分類で出てくる結果は、 たった2種類です。 来週の予約は入りそうか。 今日の午後、株価は上昇するか。 これは迷惑メールか。 どれも、はいかいいえの2択です。 2項分類には、必ず教師あり 学習を使います。 教師あり学習で重要なのは、 ラベル付きデータです。 このラベルで、システムが分類の仕方を 学習していくので、 使用するには、まず訓練データを 準備する必要があります。 2項分類の代表的な活用法の1つに、 クレジットカードの不正利用を 検知するシステムがあります。 あなたがカードを利用するたびに、 その取引が不正なものかどうかを 機械学習アルゴリズムが判定しています。 教師あり学習なので、 カード会社は不正利用の データを何万件も集めるところから 始めなければなりません。 この訓練データを使って、 不正利用のパターンを学習させるのです。 メールサービス事業者は、 迷惑メールのふるい分けに 教師あり学習を使っています。 この学習には、迷惑メールが ラベリングされた訓練データを使います。 十分な数の訓練データで 学習を積んだシステムは、新しいメールが 迷惑メールかどうかを 判定してくれるようになります。 多くのラベルつきデータを学習した 機械学習アルゴリズムは、予約データ、 不正利用、迷惑メールなどというように、 人があらかじめ決めたカテゴリーに データを分類するようになります。 データサイエンティストが設定して 訓練データに反映させるカテゴリーを、 AI システムが学習して 分類するようになるのです。 分類は機械学習の一般的な活用法ですが、 最初の訓練には多くの手間がかかります。 検知したいカード不正や迷惑メールの種類は 非常に多いので、 そのデータを集めるのも大変ですし、 十分正確な分類が実現できる 保証もありません。 データが足りず、さらに追加で 集めなければならない場合もあります。 正しい分類を習得するまで、 データを与え続けなければならないのです。 かなり以前から開発が進められていても、 本人によるカード利用が不正と 間違えられることがあるのは、 そのためです。 より正確な判定ができるよう、 不正検知システムには常に訓練が 重ねられています。 カード不正の検出、迷惑メールの判定、 オンライン販売などは、それぞれ 全く別物に見えますが、 ラベリングしたデータで訓練し、 既定のカテゴリーに分類するという 機械学習の使い方は共通なのです。

目次