k近傍法とは

コース: AI 入門

k近傍法とは

“

データを読み解く方法の１つが、既知の情報に基づいて分類することです。私は学生時代、シカゴの動物保護施設で働いていました。大変だったのは、新しい犬を犬種ごとに分類する仕事です。犬種は何百も存在するだけでなく、雑種も多いからです。引き取った犬を、すでに分類されている犬と比べて見ながら、顔の形や体毛の色など、さまざまな特徴が似た個体がないかを探します。いわば、一番近い個体を探すことで、未知の犬を分類しようとしていたわけです。むろん、微妙に異なる犬種の区別は簡単ではありません。特徴が少しでも近い犬種を見極めて分類します。別な言い方をするなら、未知の個体と既知の犬種との距離を最小にする試みです。多くの特徴がほぼ一致する場合、未知の個体と最も近傍の犬種の距離はきわめて短くなります。多項分類の教師あり学習によく使われるアルゴリズムが、 k 近傍法（ケイきんぼうほう）です。このアルゴリズムは、新たなデータを空間内にプロットして、既存のデータと比較します。今見ている例は、多くの犬種に分類するため、２項分類ではなく多項分類です。 k 近傍法のポイントは、距離の最小化です。最も近いデータとの距離が短いほど、分類が正しい確率も上がります。データ間の距離を見るには、ユークリッド距離を使うことが一般的です。ユークリッド距離は、数学的な公式で求めるそれぞれのデータ座標間の距離です。何百万匹もの犬を、犬種別に分類する場合を考えましょう。まず、同じ犬種の区別をつけやすくするために、主要な特徴を２つ設定しましょう。このような特徴を、一般に予測変数といいます。ここでは体重と体毛の長さにします。次に、２つの値を測定して、２次元のグラフにプロットしてみましょう。誰もが数学の時間に習う、あのグラフです。グラフの Y（ワイ）軸は体毛の長さ、 X（エックス）軸は体重を表すことにします。ここに、犬種がわかっている 1,000 匹分の訓練データをプロットしてみます。例えば、以前から施設にいて犬種がわかっている犬のデータです。体重と体毛の長さに基づいてプロットします。この図に、未分類の犬を追加してみましょう。訓練データの中に一致する点はないものの、距離が近い点がいくつもあります。 k 近傍法の k（ケイ）は、近い順に比較したい点の数です。 k を５と設定すると、近い順に５個の点が決まります。未知の１匹とほかの犬との距離が近いほど、正確な分類ができることになります。５匹の近い犬を見ていきましょう。５匹のうち、３匹はシェパード、２匹はハスキーでした。つまり、この犬はシェパードに分類できそうだといえますが、一定程度はハスキーである可能性もあります。 k 近傍法は、よく使われる強力なアルゴリズムの１つです。例に挙げたような分類以外にも、投資機関が有望株を見つけたり、今後の相場を予測したりする目的などにも活用されています。

k近傍法とは

コース: AI 入門

k近傍法とは

コースをダウンロードして学習しましょう。

目次

ビジネストピックを検索

クリエイティブトピックを検索

テクノロジートピックを検索