期待報酬ベクトルのチェビシェフスカラー化によるパレート最適方策の網羅的発見法

齋竹 良介  竹木 祥太  荒井 幸代  

誌名
電子情報通信学会論文誌 D   Vol.J101-D   No.9   pp.1276-1285
発行日: 2018/09/01
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2017SAP0012
論文種別: 特集論文 (ソフトウェアエージェントとその応用論文特集)
専門分野: 理論
キーワード: 
多目的最適化,  強化学習,  多目的強化学習,  パレート最適方策,  

本文: PDF(1.6MB)
>>論文を購入


あらまし: 
多目的最適化問題の解法として,強化学習を導入した「多目的強化学習」が注目されている.既存手法は,各目的のQ値からなる期待報酬ベクトルの扱い方の相違から,single-policy approachとmultiple-policy approachに大別される.前者は学習中のQ値の更新ごとに各目的のQ値を重みづけし,単目的化したスカラー量を用いる方法,後者は学習中にはスカラー化せず,各目的に次状態の全ての行動に対するQ値を保持しながら,学習後に限りスカラー化する方法である.いずれも,重みづけにおいて問題に対する事前知識が必要な点や,非凸な領域に存在する解を獲得できないという問題がある.本論文は,重みづけが学習後1回でよいこと,及び,一回に複数のパレート最適方策を獲得できることから後者のアルゴリズムに着目し,非凸な領域の解も獲得できる方法を提案する.また,提案手法の有効性を二つの代表的なベンチマークを用いた実験によって評価する.