コース: AI 入門

k平均法とは

コース: AI 入門

k平均法とは

k 平均法(ケイへいきんほう)も、 よく使われるアルゴリズムです。 これは、機械が訓練データによらずに データを解析して クラスターを生成するという、 教師なし学習のアルゴリズムです。 動物保護施設の例に戻りましょう。 ここには、収容している犬が集まって 一緒に遊べる大きな交流室があり、 犬たちが気の合う仲間と 楽しく過ごしています。 毎日決められた交流の時間になると、 仲間同士が自然に集まるのです。 この施設が閉鎖となり、 犬たちを複数の施設に 移すことになったとします。 犬への負担を軽くするため、 仲間同士のクラスターで 分けることにします。 すべての犬を、 3つのクラスターに分けます。 全体を3つのクラスターにするという、 この3という数字が、 k 平均法の k 値です。 機械がすべての犬の中からランダムに 3匹を選び出して、赤、黄、青の 3つの色を割り当てます。 3つの色は、犬同士の仲間関係に基づく クラスターを表し、 この3匹が初期の中心点になります。 次に、3匹それぞれを基準にして、 ほかのすべての犬との距離を出し、 その平均を求めます。 その上で、3匹それぞれから見て 距離が近い順に、 同じ色の首輪をつけていきます。 中心点はランダムに選ぶので、 きれいなクラスターにならないことも 多々あります。 この3匹は一緒の 仲間だったかもしれません。 その場合、この3匹から見た大部分の犬との 距離はきわめて遠くなるので、 中心点を選ぶところからやり直します。 アルゴリズムは試行を重ねながら、 最適な中心点を探します。 クラスターを1つずつ 調べるアルゴリズムもあります。 中心点を変えつつ、すべての犬との 距離を確認していくのです。 その上で、3匹それぞれから見て距離が 近い順に、同じ色の首輪をつけていきます。 ただし、集団が3つとは限らないことには 注意が必要です。 実際には7つか8つあるとしても、 移動先が3つしかないなら、アルゴリズムが その数に合わせてクラスターを作ります。 また、誰とでも仲のいい犬の扱いも 要注意です。 あちこち移動するとクラスターが うまく作れないからです。 外れ値の扱いが難しい点も、 k 平均法の課題です。 たとえ誰とも遊びたがらない犬であっても、 3つのクラスターのどれかには 入れられることになり、 いわば強制的にグループに 入れられてしまうわけです。 これは、3つの引き取り先に犬を分ける という、やや特殊な例でしたが、 k 平均法は、 広い分野でよく使われています。 例えば、販売プロモーションの 対象顧客を選ぶときにも、 この手法が使われ、 顧客データから、上得意客、得意客、 低価格追求客、という 3つのクラスターを作ります。 その上で、得意客を上得意客に 育てるための戦略を考えます。 優良顧客のクラスターは企業にとって 価値が高く、 顧客を効果的にクラスター化する方法には、 高い関心が集まるのです。 k 平均法は、何百種類もの変数を見ながら 顧客やモノをクラスタリングする 効果的な手法です。

目次