マルチステップ状態予測を用いた強化学習によるドライバモデル

小池 康晴  銅谷 賢治  

誌名
電子情報通信学会論文誌 D   Vol.J84-D2   No.2   pp.370-379
発行日: 2001/02/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習,  フォワードモデル,  視線,  自動運転,  

本文: PDF(1.1MB)>>
論文を購入




あらまし: 
本論文では,制御対象の内部モデルによる多ステップの状態予測を用いた強化学習方式を提案する.これを,自動車の運転に応用し,様々な曲率を含む道路を走行し,道路から外れたかどうかだけを評価することにより,学習を行った結果について述べる.学習により獲得した車両の動力学モデルを用いて,複数の時間刻みで予測された状態をもとに,報酬の予測と制御出力の決定を行う.シミュレーションの結果,未学習の曲率の道路形状や,速度においても安全に走行することができることを確認した.この制御方式では,制御の方針や環境条件によって,用いられる外部情報が変化し,運動制御に必要な情報を得るために視線を変化させるモデルと考えることができる.