コース: AI 入門

バイアスと分散を折り合わせる

コース: AI 入門

バイアスと分散を折り合わせる

映画『大統領の陰謀』は、 「カネを追え」という取材協力者の 一言がきっかけとなって、 新聞記者たちが資金の流れを追い、 真相を明らかにする物語です。 アルゴリズムも、真相に向かって データを追うのが役目ですが、 そこには多くの困難があります。 中でも難しい問題が、 バイアスと分散のちょうどいい 折り合いを見つけることです。 バイアスとは、予測した値と 実際の結果の間に生じるずれのことです。 「5が出る」と予測しながら 3回サイコロを振って、 3回とも4だったとします。 これはバイアスの大きい予測です。 毎回同じようにずれるからです。 分散とは、出た結果がまちまちな場所に 散らばることをいいます。 先ほどのサイコロなら、 「5が出る」と予測しながら3回振って、 結果は2と4と6だったりする状態です。 これは分散が大きいデータです。 どちらも間違いなのにわざわざ区別する 必要があるのかと思うかもしれませんが、 機械学習アルゴリズムのバイアスと 分散では、対処の方法が異なるのです。 ダーツの的を思い浮かべてください。 中心点は、機械学習による予測が 的中する状態です。 予測が当たると、的の中心の小さい丸に ダーツが入ります。 アルゴリズムが3回予測して、 全部がほぼ同じ位置にそれたとします。 例えば中心より右上の、 的の端に近い位置に3本が 固まっている状態です。 これを、バイアスが大きく分散が 小さい状態といいます。 どれも中心から大きくずれているものの、 3本の距離はほとんどありません。 このバイアスを改善して精度を上げるには、 機械の予測をもっと左下の方に 修正すればいいとわかります。 次は異なる種類の問題です。 機械が放つダーツは、 的のいろいろな場所にそれています。 予測データがこのようになることを、 分散が大きい状態といいます。 この大きな分散を改善するには、 機械の予測を中心へと 絞り込むことが必要です。 ここでの理想は、バイアスも分散も 小さい予測にすること、すなわち ダーツがすべて中心に当たる 状態にすることです。 ただ、アルゴリズムの修正は、 大きすぎるバイアスか大きすぎる 分散の一方にしか 対処できないのが普通です。 機械学習において普遍的なこの問題を、 バイアスと分散のトレードオフといいます。 システム上、どちらかを修正すれば、 もう一方に影響が及ぶからです。 分散を小さくするよう調整すれば、 一方でバイアスは大きくなります。 バイアスを調整すれば、 分散が大きくなります。 大切なのは、データに沿うように バイアスと分散を少しずつ調整し、 最適な折り合いを見つけることです。 そうすれば、最善の予測が できるようになります。

目次