コース: AI 入門

強化学習とは

コース: AI 入門

強化学習とは

音楽配信はいまや一大産業ですが、 ビジネスとしては異色でもあります。 AppleもSpotify も、 聴ける楽曲はだいたい同じだからです。 会社を選ぶ決め手は何でしょうか。 おすすめ機能の的確さも、 その1つに挙げられるでしょう。 おすすめ機能を提供するために、 教師なし学習を使っている企業は 少なくありません。 ネットショップの 「合わせて購入されている商品」と 同じ仕組みで、さまざまな楽曲を おすすめします。 ただ、これ以外にも欲しいのが、 新たな好みを発見できるおすすめです。 それには、また違う形式の 機械学習が必要です。 それにぴったりなのが、 強化学習と呼ばれる手法です。 これは、報酬の仕組みを使って システムに新たなパターンを 発見させる手法です。 2013 年、後に Google 子会社となる DeepMind が、強化学習を使って AI にビデオゲームの攻略法を学ばせ、 人間をしのぐ強さに育てました。 強化学習の応用範囲は非常に広く、 目標と報酬を設定しておけば、 時間とともにどんどん能力が 向上していきます。 Spotify のディスカバーウイークリーという プレイリストは、 ユーザーが好んで聴く楽曲を 類似する楽曲と比較しながら 生成されています。 機械学習アルゴリズムは、 ユーザーがクリックして聴いている 楽曲の履歴や、 それぞれを何分間聴いたかを学習します。 このアルゴリズムは、紹介した楽曲を ユーザーがクリックすると、 デジタルの報酬を受け取ります。 少額のコインのようなものです。 紹介した楽曲をユーザーが クリックすると加算され、 しかもその楽曲をユーザーが飛ばさずに 聴いていればいるほど、 1分単位で増えていく報酬です。 この強化学習アルゴリズムは、 Q(キュー)学習と呼ばれるもので、 報酬を細かく設定することが 可能な仕組みを持っています。 与えられた状態と、それぞれの状態に 対応して機械が取りうる行動を 検討しながら、 結果のクオリティを意味する Q 値をできるだけ高くすることを、 機械の目標として設定します。 Q 値がゼロのところから始めて、 どんな対応で状態が上向くのかを、 1つずつ機械に学習させていきます。 ユーザーがディスカバーウイークリーの 楽曲をクリックするたびに、 AI の持っている Q 値は増えていきます。 Q 値は、このシステムの口座残高の ようなものともいえるでしょう。 アルゴリズムは、何をすると どう残高が増えるかを学習し、 報酬の仕組みに応じて、 Q 値が少しでも高くなるパターンを 追求していきます。 例えば、ある楽曲をよく聴く人々に 別のある曲が好まれるとわかれば、 それを生かしてリストを生成します。 強化学習システムは、単に合わせ買いされる 商品を特定するだけでなく、 顧客の新たな発見の可能性を広げる クリエイティブな AI システムを構築したい という企業のニーズに 最適な学習方法といえます。

目次