POMDPs環境における状態遷移の部分的履歴を用いた強化学習法

藤原 真一
宮本 俊幸

誌名
電子情報通信学会論文誌 A   Vol.J94-A    No.10    pp.778-781
発行日: 2011/10/01
Online ISSN: 1881-0195
DOI: 
Print ISSN: 0913-5707
論文種別: レター
専門分野: 
キーワード: 
強化学習,  部分観測マルコフ決定過程,  不完全知覚問題,  部分履歴,  

本文: PDF(461.7KB)>>
論文を購入



あらまし: 
エージェントの知覚が制限されたPOMDPs環境における強化学習法として,メモリベース法や確率的政策の学習法が知られている.しかし,前者は大きな計算コストを要する,後者は政策の不確実性・ランダム性のため,報酬獲得に必要以上の行動を要するという欠点がある.本速報では,メモリベース法と確率的政策の学習法を組み合わせることを提案する.計算機実験の結果は,性能を向上させることが可能であることを示している.