ナイーブベイズとは

コース: AI 入門

ナイーブベイズとは

“

これまで、近いデータと比べて分類する手法や、トレンドを基準に分類する手法を見てきました。次は、データに含まれる複数の要素を元に分類する手法で、ナイーブベイズと呼ばれるアルゴリズムです。ナイーブベイズも、非常によく利用される機械学習アルゴリズムの１つです。ベイズ学習の手法の中でも、予測変数相互の影響がないと仮定していることが特徴で、単純ベイズとも呼ばれます。先の動物保護施設の例で、すべての犬を、犬種ごとに分類したいとします。今回は、ナイーブベイズのアルゴリズムを使って考えます。まず、３つの犬種をクラスとして設定します。ここではテリア、ハウンド、競技犬の３つとします。次に、これらの犬種を特定するために使う予測変数を設定します。ここでは体毛の長さ、体高、体重の３つを使います。体高が高い個体は体重も重いというように、予測変数の間に強い相関もあることが普通ですが、ナイーブベイズでは変数間の相関を考慮しません。名前のとおり、単純化した手法です。クラスと予測変数を設定すると、アルゴリズムはまずクラス予測確率と呼ばれる値を計算します。個々の犬について３つの予測変数を見て、それぞれの犬種に属する確率を推定します。まだ犬種がわからない１匹を分類したい場合、最初は体毛の長さを見てその長さの体毛を持つ犬が、それぞれのクラスに属する確率がどれだけあるかを調べます。訓練データを見ると、この長さならテリアである確率が 40％、ハウンドである確率が 10％、競技犬である確率が 50％であるとわかったとします。次にアルゴリズムは、同じ犬の体高を見ます。体高も１つの独立した予測変数として扱い、その体高で３つのクラスのそれぞれに属する確率がどうなるかを調べます。訓練データを見ると、テリアである確率が 20％、ハウンドである確率が 10％、競技犬である確率が 70％だとわかります。そして最後に、同じ犬の体重を調べます。体高と強い相関がある体重を扱うのは不合理に思えますが、そこはナイーブベイズ法なので、すべてを独立した予測変数として評価します。訓練データを見ると、テリアである確率が 10％、ハウンドである確率が 5％、競技犬である確率が 85％でした。これで、犬種未確定の１匹について、クラス予測確率の表ができました。これを見れば、競技犬という推測がつくでしょう。ナイーブベイズのアルゴリズムは、ビジネスにも幅広く活用できます。例えばカード会社では、カード利用データの全変数を独立して評価するために使われています。クラス予測確率を出して、不正利用を分類するわけです。セキュリティ企業では、脅威の洗い出しに利用しています。個々の変数を独立して評価し、人による精査が必要な案件に印をつけてくれます。ナイーブベイズの特徴は、前提をほとんど設けずに、多くの予測変数を一度に扱えることです。多くの変数を調べることが、正確な分類に役立つのです。

ナイーブベイズとは

コース: AI 入門

ナイーブベイズとは

コースをダウンロードして学習しましょう。

目次

ビジネストピックを検索

クリエイティブトピックを検索

テクノロジートピックを検索