next up previous index
次へ: 平均場近似 上へ: 確率構造探索と最適化 戻る: 能動学習   索引

bandit problem と強化学習

能動学習は統計モデルを効率的に同定する目的のみでサンプリングが行われる. 本稿での主目的はあくまで最適化なので,モデルの同定と最適化を両立する 必要がある. そのような方向性において関連が深いものの一つに bandit problem がある. これはコインの出る確率が異なるスロットマシンがいくつか あるときに最大の収益を上げたいという問題である.

この問題では,各スロットマシンの統計的性質の同定と,収益最大化という 二つの異なる目的を達成する必要がある. 一般的には,最初のうちは統計的性質を同定するために使って,その後決めた スロットを引き続けるという最適戦略がよく知られている.

さらにこれを一般化した問題が 強化学習 (RL = Reinforcement learning) [16]である. 強化学習で考えるのは,bandit problem でスロットを引く試行が各回独立 ではなく,マルコフ的に状態遷移するような状況である. このような枠組みはマルコフ決定過程 (MDP = Markov decision process) と呼ばれ,確率パラメータが既知ならば動的計画法 (DP = Dynamic programming) を利用した再帰計算による効率的な解法が知られている. しかし通常は確率パラメータが 未知なので,統計モデルの同定をしながら最適な行動を選択する Q-learning や TD-learning といったいくつかの手法が知られている. ただし,これらの枠組みは最適化問題としてかなり特殊なものなので, 一般の最適化問題にどのように利用できるかは未知の部分が多い.

一つ参考になるのは,これらの枠組みにおいても,3.1 節で説明した exploration-exploitation が重要な要素となっていることである. 確率モデルを同定するためには exploration を行って幅広いサンプルを集める 必要があるし,高い収益を上げるには既存の知識に基づいた exploitation に よって行動する必要がある.

もう一つの重要な点は,強化学習などでは必ずしも統計モデルのパラメータ そのものを同定するとは限らない点である. 肝心なのは大きな収益を 上げることだから,行動決定に必要な情報のみの学習をするのである. これによって,通常統計モデルの同定に必要なサンプル数よりもかなり少ない 数のサンプルからの学習が可能になっている. ただし,これも一般の最適化問題の場合にどこまで通用するかは未知である.



Shotaro Akaho 平成19年6月13日