線形時相論理仕様を満たす階層的制御への強化学習の応用

山倉 佑馬  潮 俊光  

誌名
電子情報通信学会論文誌 A   Vol.J102-A   No.10   pp.254-263
発行日: 2019/10/01
Online ISSN: 1881-0195
DOI: 
論文種別: 論文
専門分野: システム数理と応用
キーワード: 
マルコフ決定過程,  強化学習,  線形時相論理式,  ラビンオートマトン,  

本文: PDF(783.3KB)>>
論文を購入




あらまし: 
近年,不確かな制御対象に対して線形時相論理式(LTL式)を用いて記述された制御仕様を満たす制御器の学習問題が注目されている.本論文では,マルコフ決定過程(MDP)でモデル化される制御対象に対してLTL制御仕様を満たす制御器の設計問題を考える.LTL式を満たす状態遷移列のみを受理する遷移ベースの決定的一般化ラビンオートマトン(tDGRA)が存在する.MDPとtDGRAの合成積をとった合成MDPの受理条件に基づいた3層の階層型制御アーキテクチャを提案する.tDGRAの特徴として,状態数が他のラビンオートマトンと比較して少ないことが挙げられる.したがって,合成MDPの状態も他のラビンオートマトンを用いた場合と比較して少なくなり,学習効率が向上する.提案アーキテクチャの各層を学習するアルゴリズムも提案する.シミュレーションによって,提案アルゴリズムを用いてLTL式を満たす階層型制御器を学習したことを確認する.