状態表現と報酬関数の相互設計法における実験的考察

本木 雄斗  荒井 幸代  吉永 和史  

誌名
電子情報通信学会論文誌 D   Vol.J101-D   No.9   pp.1295-1304
発行日: 2018/09/01
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2017SAP0015
論文種別: 特集論文 (ソフトウェアエージェントとその応用論文特集)
専門分野: 理論
キーワード: 
強化学習,  逆強化学習,  報酬設計,  状態表現,  

本文: PDF(1.3MB)
>>論文を購入


あらまし: 
強化学習を実問題に応用する上で「状態空間」と「報酬」の設計がボトルネックとなっている.従来,状態設計問題に対しては離散状態の価値を連続関数によって近似する方法や,あらかじめ離散化された状態を統合または分割することにより状態表現を獲得する方法,また,報酬設計問題に対しては,NgらやAbbeelらによって定式化された逆強化学習がある.しかし,状態,報酬,行動からモデル化される強化学習において,状態空間と報酬関数は相互に関連し,両者の設計が学習性能に影響する.そこで,本論文ではそれぞれの設計問題を独立に扱うのではなく,相互に改善する方法に着目し,強化学習問題における状態表現と報酬関数を相互に改善することにより設計する手法を提案する.また,提案手法が状態数の削減,学習性能において優れていることをAbbeelの逆強化学習との比較実験によって示す.