選択的不感化ニューラルネットを用いた強化学習の価値関数近似

新保 智之  山根 健  田中 文英  森田 昌彦  

誌名
電子情報通信学会論文誌 D   Vol.J93-D   No.6   pp.837-847
発行日: 2010/06/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 特集論文 (情報爆発論文特集)
専門分野: 知識獲得,機械学習
キーワード: 
SDNN,  関数近似器,  Q学習,  冗長次元,  アクロボット,  

本文: PDF(1MB)
>>論文を購入


あらまし: 
連続状態空間で強化学習を行う場合,価値関数を少ないサンプルで精度良く近似することが重要であるが,従来用いられてきた局所的近似手法は,近似精度と学習効率の両立が困難である上に,状態空間の次元が高くなると学習時間や計算コストが爆発的に増大するという問題を抱えている.本研究では,選択的不感化ニューラルネットを用いて関数近似器を構成するとともに,これによって価値関数を近似することでこの問題が大きく改善できることを示す.アクロボットの振り上げ課題を用いた実験の結果,本手法は学習効率が近似精度の割に高く,冗長変数を加えてもほとんど低下しない,状態空間の次元が増えても計算コストの爆発的増加が生じない,オンライン学習が可能など,実空間における強化学習に適した性質を備えることが分かった.この結果は,膨大な情報の中から必要な情報だけを抽出する情報処理技術の開発にもつながると考えられる.