マルコフポテンシャル論とマルコフ決定過程

阿曽 弘具  木村 正行  

誌名
電子情報通信学会論文誌 D   Vol.J56-D   No.1   pp.25-32
発行日: 1973/01/25
Online ISSN: 
DOI: 
Print ISSN: 0913-5713
論文種別: 論文・資料
専門分野: 
キーワード: 


本文: PDF(752.6KB)>>
論文を購入




あらまし: 
本論文は,可付番状態空間上で定義されたマルコフ決定過程において,最適方略が存在するために確率的系がもつべきより一般的な十分条件を与えることを目的としたものである.この目的は,マルコフポテンシャル論を用いて,ハワードの手順と呼ばれる最適方略を見い出す方法の妥当性の範囲を明らかにすることによって達成された.その大要はおおよそつぎのとおりである.まず,マルコフポテンシャル論を用いてマルコフ決定過程を一般的統一的に論じるために,強吸収性連鎖,準ポテンシャルなどの概念を導入して,関数方程式xfPxの解,すなわち,準ポテンシャルの存在条件を周期的連鎖,複合連鎖に対する条件に一般化した.ついで,このポテンシャル論を用いてマルコフ決定過程における方略の評価関数に統一的視野を与え,確率的系の入力空間に対する制限および利得関数の有界性のもとで,つぎのような結果を得た.すなわち,総期待利得および平均期待利得による評価のもとでは,確率的系が任意の方略に対してある意味で強連鎖をなすことが,最適方略が存在するための十分条件である.割引総期待利得による評価のもとでは,任意の確率的系に対して最適方略を求めることができる.