行動選択確率に基づく動的強化関数を用いた強化学習手法

長谷川 雄吾  高田 沙都子  中野 秀洋  荒井 秀一  宮内 新  

誌名
電子情報通信学会論文誌 D   Vol.J89-D   No.4   pp.788-796
発行日: 2006/04/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 人工知能,認知科学
キーワード: 
強化学習,  profit sharing,  dynamic profit sharing,  強化関数,  合理性定理,  

本文: PDF(423.5KB)
>>論文を購入


あらまし: 
本論文では,Profit Sharing(PS)における強化関数を,行動の選択確率に基づき動的に変化させる強化学習手法Dynamic Profit Sharingを提案する.合理的な解を得るための必要十分条件を与えるPSの合理性定理に対し,提案手法では,確率的に十分な合理性を維持しつつ学習効率を向上させるための条件を与える.この条件を満たす強化関数を動的に決定することで,報酬の分配効率を高めることができ,目標状態まで多くの行動を必要とする環境に対しても高速に学習を行うことが可能となる.迷路問題と追跡問題を例題とした実験を行い,提案手法の有効性を確認する.