|
本文PDFファイルを閲覧するには,ログインする必要があります.
左メニューよりログインして下さい.
|
POMDPs環境における状態遷移の部分的履歴を用いた強化学習法
藤原 真一 宮本 俊幸
誌名
電子情報通信学会論文誌 A
Vol.J94-A
No.10
pp.778-781 発行日: 2011/10/01 Online ISSN: 1881-0195
DOI: Print ISSN: 0913-5707 論文種別: レター 専門分野: キーワード: 強化学習, 部分観測マルコフ決定過程, 不完全知覚問題, 部分履歴,
本文: PDF(461.7KB)>>
あらまし:
エージェントの知覚が制限されたPOMDPs環境における強化学習法として,メモリベース法や確率的政策の学習法が知られている.しかし,前者は大きな計算コストを要する,後者は政策の不確実性・ランダム性のため,報酬獲得に必要以上の行動を要するという欠点がある.本速報では,メモリベース法と確率的政策の学習法を組み合わせることを提案する.計算機実験の結果は,性能を向上させることが可能であることを示している.
|
|
|