キーワード : 強化学習


深層強化学習Agentの離散行動空間タスクにおける重み付き結合
佐藤 件一郎 幸島 匡宏 松林 達史 戸田 浩之 
誌名:   
発行日: 2020/05/01
Vol. J103-D  No. 5 ; pp. 403-414
論文種別:  特集論文 (データ工学と情報マネジメント論文特集)
専門分野: 深層強化学習
キーワード: 
強化学習深層強化学習最大エントロピー強化学習構成性信号制御
 あらまし | 本文:PDF(3.2MB)

線形時相論理仕様を満たす階層的制御への強化学習の応用
山倉 佑馬 潮 俊光 
誌名:   
発行日: 2019/10/01
Vol. J102-A  No. 10 ; pp. 254-263
論文種別:  論文
専門分野: システム数理と応用
キーワード: 
マルコフ決定過程強化学習線形時相論理式ラビンオートマトン
 あらまし | 本文:PDF(783.3KB)

深層強化学習を用いた不確かな入力遅延のある非線形システムの安定化
池本 隼也 潮 俊光 
誌名:   
発行日: 2019/10/01
Vol. J102-A  No. 10 ; pp. 268-271
論文種別:  レター
専門分野: 
キーワード: 
制御入力遅延強化学習深層強化学習
 あらまし | 本文:PDF(543.9KB)

強化学習による電気自動車の走行モデル切り替えの最適化
内田 英明 藤井 秀樹 吉村 忍 
誌名:   
発行日: 2018/09/01
Vol. J101-D  No. 9 ; pp. 1316-1324
論文種別:  特集論文 (ソフトウェアエージェントとその応用論文特集)
専門分野: エージェント応用
キーワード: 
電気自動車交通シミュレーション経路選択強化学習
 あらまし | 本文:PDF(1.1MB)

状態表現と報酬関数の相互設計法における実験的考察
本木 雄斗 荒井 幸代 吉永 和史 
誌名:   
発行日: 2018/09/01
Vol. J101-D  No. 9 ; pp. 1295-1304
論文種別:  特集論文 (ソフトウェアエージェントとその応用論文特集)
専門分野: 理論
キーワード: 
強化学習逆強化学習報酬設計状態表現
 あらまし | 本文:PDF(1.3MB)

期待報酬ベクトルのチェビシェフスカラー化によるパレート最適方策の網羅的発見法
齋竹 良介 竹木 祥太 荒井 幸代 
誌名:   
発行日: 2018/09/01
Vol. J101-D  No. 9 ; pp. 1276-1285
論文種別:  特集論文 (ソフトウェアエージェントとその応用論文特集)
専門分野: 理論
キーワード: 
多目的最適化強化学習多目的強化学習パレート最適方策
 あらまし | 本文:PDF(1.6MB)

神経活動の解析に基づく腹側線条体の強化学習機能のモデル化
篠塚 正成 森田 昌彦 設楽 宗孝 
誌名:   電子情報通信学会論文誌 D
発行日: 2015/09/01
Vol. J98-D  No. 9 ; pp. 1277-1287
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
大脳基底核腹側線条体強化学習状態価値関数リカレントニューラルネット
 あらまし | 本文:PDF(1017KB)

複雑ネットワーク上での影響力の伝搬によるノルムの収束について
渋澤 亮介 菅原 俊治 
誌名:   電子情報通信学会論文誌 D
発行日: 2015/06/01
Vol. J98-D  No. 6 ; pp. 873-883
論文種別:  特集論文 (ソフトウェアエージェントとその応用論文特集)
専門分野: エージェントベースシミュレーション
キーワード: 
ノルム複雑ネットワーク影響力強化学習マルチエージェントシステム
 あらまし | 本文:PDF(3.6MB)

選択的不感化ニューラルネットを用いた連続状態行動空間におけるQ学習
小林 高彰 澁谷 長史 森田 昌彦 
誌名:   電子情報通信学会論文誌 D
発行日: 2015/02/01
Vol. J98-D  No. 2 ; pp. 287-299
論文種別:  論文
専門分野: 人工知能,データマイニング
キーワード: 
強化学習行動価値関数Q値関数近似
 あらまし | 本文:PDF(722.8KB)

コミュニケーションロボットとの対戦型ゲームにもとづく介護予防システムの提案
北越 大輔 岡野 卓矢 鈴木 雅人 
誌名:   電子情報通信学会論文誌 A
発行日: 2014/06/01
Vol. J97-A  No. 6 ; pp. 406-410
論文種別:  特集レター (人とエージェントのインタラクション論文特集)
専門分野: インタフェースデザイン
キーワード: 
介護予防ヒューマンエージェントインタラクション強化学習対戦型ゲーム
 あらまし | 本文:PDF(625.7KB)

音声対話による意思決定支援システムの実験的評価
翠 輝久 水上 悦雄 柏岡 秀紀 
誌名:   電子情報通信学会論文誌 D
発行日: 2013/10/01
Vol. J96-D  No. 10 ; pp. 2518-2529
論文種別:  特集論文 (システム開発論文特集)
専門分野: 音声,聴覚
キーワード: 
音声対話システム対話制御強化学習意思決定支援システム
 あらまし | 本文:PDF(803.8KB)

POMDPs環境における状態遷移の部分的履歴を用いた強化学習法
藤原 真一 宮本 俊幸 
誌名:   電子情報通信学会論文誌 A
発行日: 2011/10/01
Vol. J94-A  No. 10 ; pp. 778-781
論文種別:  レター
専門分野: 
キーワード: 
強化学習部分観測マルコフ決定過程不完全知覚問題部分履歴
 あらまし | 本文:PDF(461.7KB)

マルチエージェントシステムにおける行動制御―PSOにおける重み係数の強化学習―
五十嵐 治一 半田 雅人 石原 聖司 篠埜 功 
誌名:   電子情報通信学会論文誌 D
発行日: 2011/10/01
Vol. J94-D  No. 10 ; pp. 1612-1621
論文種別:  論文
専門分野: 情報ネットワーク
キーワード: 
マルチエージェントシステムPSO強化学習方策こう配法
 あらまし | 本文:PDF(1.1MB)

部分観測下での最悪ケースに基づくスーパバイザの強化学習
梶原 弘治  達志 
誌名:   電子情報通信学会論文誌 A
発行日: 2011/09/01
Vol. J94-A  No. 9 ; pp. 683-691
論文種別:  論文
専門分野: システムと制御
キーワード: 
離散事象システムスーパバイザ制御強化学習部分観測最適制御
 あらまし | 本文:PDF(984.6KB)

状態の複数の抽象化による方策こう配法の高速化―トンネル状の障害物が存在する追跡問題への適用―
今井 悟士 五十嵐 治一 石原 聖司 
誌名:   電子情報通信学会論文誌 D
発行日: 2011/06/01
Vol. J94-D  No. 6 ; pp. 968-976
論文種別:  論文
専門分野: 情報ネットワーク
キーワード: 
マルチエージェントシステム追跡問題強化学習方策こう配法情報統合
 あらまし | 本文:PDF(687.6KB)

能動的な動きに基づく知覚の恒常性を実現する状態表現
郷古 学 小林 祐一 
誌名:   電子情報通信学会論文誌 D
発行日: 2011/05/01
Vol. J94-D  No. 5 ; pp. 862-871
論文種別:  論文
専門分野: 人工知能,データマイニング
キーワード: 
状態表現f-divergence知覚の恒常性強化学習移動ロボット
 あらまし | 本文:PDF(1MB)

逐次的に分割された問題空間における複素強化学習
山崎 惇広 濱上 知樹 
誌名:   電子情報通信学会論文誌 D
発行日: 2011/05/01
Vol. J94-D  No. 5 ; pp. 872-880
論文種別:  論文
専門分野: 人工知能,データマイニング
キーワード: 
強化学習複素強化学習HQ-learning不完全知覚問題
 あらまし | 本文:PDF(647.4KB)

2人2行動対称ゲームのための学習率調整Q学習
森山 甲一 
誌名:   電子情報通信学会論文誌 D
発行日: 2009/11/01
Vol. J92-D  No. 11 ; pp. 1819-1826
論文種別:  特集論文 (ソフトウェアエージェントとその応用論文特集)
専門分野: モデル/理論
キーワード: 
強化学習マルチエージェントシステム囚人のジレンマゲーム理論
 あらまし | 本文:PDF(576.4KB)

No News規準が有効な条件:誘導教示の意味学習場面での実験的検討
田中 一晶 左 祥 嵯峨野 泰明 荒木 雅弘 岡 夏樹 
誌名:   電子情報通信学会論文誌 A
発行日: 2009/11/01
Vol. J92-A  No. 11 ; pp. 784-794
論文種別:  特集論文 (人とエージェントのインタラクション論文特集)
専門分野: エージェントデザイン
キーワード: 
暗黙的な情報誘導教示意味学習人-ロボットインタラクション強化学習
 あらまし | 本文:PDF(1.3MB)

獲得免疫系の免疫反応をもとにした強化学習機構の構築
伊藤 順吾 中野 和司 桜間 一徳 
誌名:   電子情報通信学会論文誌 D
発行日: 2008/10/01
Vol. J91-D  No. 10 ; pp. 2487-2496
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
獲得免疫系T細胞B細胞強化学習Profit Sharing
 あらまし | 本文:PDF(314.6KB)

自然方策こう配法:平均報酬の自然こう配に基づく方策探索
森村 哲郎 内部 英治 吉本 潤一郎 銅谷 賢治 
誌名:   電子情報通信学会論文誌 D
発行日: 2008/06/01
Vol. J91-D  No. 6 ; pp. 1515-1527
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
強化学習自然こう配法リーマン計量行列方策こう配法マルコフ決定過程
 あらまし | 本文:PDF(457KB)

複素数で表現された行動価値を用いるQ-learning
澁谷 長史 濱上 知樹 
誌名:   電子情報通信学会論文誌 D
発行日: 2008/05/01
Vol. J91-D  No. 5 ; pp. 1286-1295
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
強化学習Q-learning部分観測マルコフ決定過程不完全知覚問題
 あらまし | 本文:PDF(392.6KB)

非マルコフ決定過程における強化学習―特徴的適正度の統計的性質―
五十嵐 治一 石原 聖司 木村 昌臣 
誌名:   電子情報通信学会論文誌 D
発行日: 2007/09/01
Vol. J90-D  No. 9 ; pp. 2271-2280
論文種別:  特集論文 (ソフトウェアエージェントとその応用論文特集)
専門分野: モデル/理論
キーワード: 
強化学習マルコフ性非マルコフ決定過程方策こう配法マルチエージェントシステム
 あらまし | 本文:PDF(243.5KB)

Max-Min Actor-Criticによる複数報酬課題の強化学習
上岡 拓未 内部 英治 銅谷 賢治 
誌名:   電子情報通信学会論文誌 D
発行日: 2007/09/01
Vol. J90-D  No. 9 ; pp. 2510-2521
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
多目的最適化強化学習Max-Min最適方策報酬設計
 あらまし | 本文:PDF(536.7KB)

MOSAICモデルにより環境を抽象化する階層型強化学習
杉本 徳和 鮫島 和行 銅谷 賢治 川人 光男 
誌名:   電子情報通信学会論文誌 D
発行日: 2006/07/01
Vol. J89-D  No. 7 ; pp. 1577-1587
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習階層構造モジュール構造連続システム状態の抽象化
 あらまし | 本文:PDF(422.3KB)

強化学習とフィードバック誤差学習を用いた腕の姿勢制御
神原 裕行 金 載烋 佐藤 誠 小池 康晴 
誌名:   電子情報通信学会論文誌 D
発行日: 2006/05/01
Vol. J89-D  No. 5 ; pp. 1036-1048
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
フィードバック誤差学習強化学習Actor-Critic法姿勢制御逆ダイナミックスモデル逆スタティックスモデル
 あらまし | 本文:PDF(763.5KB)

行動選択確率に基づく動的強化関数を用いた強化学習手法
長谷川 雄吾 高田 沙都子 中野 秀洋 荒井 秀一 宮内 新 
誌名:   電子情報通信学会論文誌 D
発行日: 2006/04/01
Vol. J89-D  No. 4 ; pp. 788-796
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
強化学習profit sharingdynamic profit sharing強化関数合理性定理
 あらまし | 本文:PDF(423.5KB)

強化学習の並列型メタ学習:学習率の調整
阿知波 健 渡辺 亮平 田中 昭雄 大家 淳二 松本 隆 
誌名:   電子情報通信学会論文誌 D
発行日: 2005/12/01
Vol. J88-D1  No. 12 ; pp. 1773-1784
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
強化学習メタ学習学習率メタパラメータ
 あらまし | 本文:PDF(1.6MB)

部分観測カードゲームのためのモデル同定型強化学習
藤田 肇 石井 信 
誌名:   電子情報通信学会論文誌 D
発行日: 2005/11/01
Vol. J88-D2  No. 11 ; pp. 2277-2287
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習部分観測環境マルチエージェント系カードゲームHearts
 あらまし | 本文:PDF(452.5KB)

マルチエージェントシステムにおける利他的な行動規則の獲得
上田 祐彰 谷澤 俊彰 高橋 健一 宮原 哲浩 
誌名:   電子情報通信学会論文誌 D
発行日: 2005/09/01
Vol. J88-D1  No. 9 ; pp. 1278-1286
論文種別:  特集論文 (ソフトウェアエージェントとその応用論文特集)
専門分野: モデル/理論
キーワード: 
マルチエージェントシステム強化学習利他的な行動
 あらまし | 本文:PDF(305.8KB)

場所細胞の位置マップと強化学習を用いた移動ロボットのナビゲーション
田中 敏雄 西田 健次 栗田 多喜夫 
誌名:   電子情報通信学会論文誌 D
発行日: 2005/09/01
Vol. J88-D2  No. 9 ; pp. 1866-1875
論文種別:  論文
専門分野: 画像認識,コンピュータビジョン
キーワード: 
場所細胞ニューラルガス移動ロボットナビゲーション強化学習
 あらまし | 本文:PDF(1.2MB)

強化学習と隠れマルコフモデルの結合による自律的な動作認識
諸岡 健一 浜元 和久 長橋 宏 
誌名:   電子情報通信学会論文誌 D
発行日: 2005/07/01
Vol. J88-D2  No. 7 ; pp. 1269-1277
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
動作生成動作認識強化学習隠れマルコフモデル
 あらまし | 本文:PDF(765.6KB)

POMDPs環境のためのエピソード強化型強化学習法
植村 渉 上野 敦志 辰巳 昭治 
誌名:   電子情報通信学会論文誌 A
発行日: 2005/06/01
Vol. J88-A  No. 6 ; pp. 761-774
論文種別:  論文
専門分野: 人工知能
キーワード: 
強化学習Profit Sharing部分観測可能マルコフ決定過程不完全知覚問題
 あらまし | 本文:PDF(612.5KB)

方策こう配法に基づく強化学習法と二足歩行運動制御への応用
森 健 中村 泰 石井 信 
誌名:   電子情報通信学会論文誌 D
発行日: 2005/06/01
Vol. J88-D2  No. 6 ; pp. 1080-1089
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習方策こう配法Actor-critic法二足歩行中枢パターン生成器
 あらまし | 本文:PDF(504KB)

複数制御器の切換学習法による実アクロボットの制御
西村 政哉 吉本 潤一郎 時田 陽一 中村 泰 石井 信 
誌名:   電子情報通信学会論文誌 A
発行日: 2005/05/01
Vol. J88-A  No. 5 ; pp. 646-657
論文種別:  論文
専門分野: 人工知能
キーワード: 
アクロボットシステム同定非線形制御強化学習
 あらまし | 本文:PDF(962.7KB)

状態空間の部分的高次元化法によるマルチエージェント強化学習
藤田 和幸 松尾 啓志 
誌名:   電子情報通信学会論文誌 D
発行日: 2005/04/01
Vol. J88-D1  No. 4 ; pp. 864-872
論文種別:  論文
専門分野: 分散協調とエージェント
キーワード: 
マルチエージェント強化学習Modular Q-learning状態空間
 あらまし | 本文:PDF(565.7KB)

方策こう配法を用いた動的行動則の獲得:2足歩行運動への適用
松原 崇充 森本 淳 中西 淳 佐藤 雅昭 銅谷 賢治 
誌名:   電子情報通信学会論文誌 D
発行日: 2005/01/01
Vol. J88-D2  No. 1 ; pp. 53-65
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習動的行動則方策こう配法2足歩行central pattern generator
 あらまし | 本文:PDF(1.6MB)

外部評価機構を導入したマルチエージェント強化学習における過去の事象に基づく報酬配分
保知 良暢 新谷 虎松 伊藤 孝行 大囿 忠親 
誌名:   電子情報通信学会論文誌 D
発行日: 2004/12/01
Vol. J87-D1  No. 12 ; pp. 1119-1127
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
マルチエージェントシステム強化学習報酬配分問題
 あらまし | 本文:PDF(404.1KB)

感覚運動統合システムにおけるダイナミックス整合の適応的獲得
尾川 順子 阪口 豊 並木 明夫 石川 正俊 
誌名:   電子情報通信学会論文誌 D
発行日: 2004/07/01
Vol. J87-D2  No. 7 ; pp. 1505-1515
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
感覚運動統合ダイナミックス整合強化学習ターゲットトラッキングロボティクス
 あらまし | 本文:PDF(911KB)

多期間消費投資モデルにおける強化学習を用いたポートフォリオ戦略
奥原 浩之 柴田 淳子 田中 稔次朗 坂和 正敏 
誌名:   電子情報通信学会論文誌 A
発行日: 2004/05/01
Vol. J87-A  No. 5 ; pp. 617-625
論文種別:  論文
専門分野: 非線形問題
キーワード: 
人工市場多期間消費投資モデルエージェント強化学習ポートフォリオ戦略
 あらまし | 本文:PDF(471.5KB)

神経振動子ネットワークを用いたリズム運動に対する強化学習法
中村 泰 佐藤 雅昭 石井 信 
誌名:   電子情報通信学会論文誌 D
発行日: 2004/03/01
Vol. J87-D2  No. 3 ; pp. 893-902
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習Actor-criticモデル中枢パターン生成器神経振動子ネットワーク2足歩行
 あらまし | 本文:PDF(1.1MB)

マルチエージェント系における行動学習への方策こう配法の適用―追跡問題―
石原 聖司 五十嵐 治一 
誌名:   電子情報通信学会論文誌 D
発行日: 2004/03/01
Vol. J87-D1  No. 3 ; pp. 390-397
論文種別:  論文
専門分野: 分散協調とエージェント
キーワード: 
強化学習方策こう配法追跡問題マルチエージェント系
 あらまし | 本文:PDF(212.2KB)

複数の状態予測と報酬予測モデルによる強化学習と行動目標の推定
杉本 徳和 鮫島 和行 銅谷 賢治 川人 光男 
誌名:   電子情報通信学会論文誌 D
発行日: 2004/02/01
Vol. J87-D2  No. 2 ; pp. 683-694
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
モジュール分割強化学習非線形制御見まね学習
 あらまし | 本文:PDF(1.5MB)

強化学習におけるSupport Vector Machineを用いた状態一般化法
後藤 亮 松尾 啓志 
誌名:   電子情報通信学会論文誌 D
発行日: 2003/12/01
Vol. J86-D1  No. 12 ; pp. 897-905
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
強化学習Support Vector Machine状態一般化
 あらまし | 本文:PDF(530.3KB)

適応的な状態分割を行うQ-Learningにおける状態数の調整方法
濱上 知樹 小圷 成一 平田 廣則 
誌名:   電子情報通信学会論文誌 D
発行日: 2003/07/01
Vol. J86-D1  No. 7 ; pp. 490-499
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
強化学習Q-learningQLASS適応的状態分割
 あらまし | 本文:PDF(1.5MB)

部分観測マルコフ決定過程下の強化学習のためのパルスニューラルネットワーク学習則
瀧田 航一朗 萩原 将文 
誌名:   電子情報通信学会論文誌 D
発行日: 2003/07/01
Vol. J86-D2  No. 7 ; pp. 1067-1077
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
パルスニューラルネットワーク強化学習部分観測マルコフ決定過程
 あらまし | 本文:PDF(1.2MB)

階層的強化学習による仮想人間の動作生成
向井 智彦 栗山 繁 金子 豊久 
誌名:   電子情報通信学会論文誌 D
発行日: 2003/06/01
Vol. J86-D2  No. 6 ; pp. 886-894
論文種別:  論文
専門分野: コンピュータグラフィックス(CG)
キーワード: 
CGアニメーション仮想人間動作生成強化学習階層的探索
 あらまし | 本文:PDF(625.9KB)

ファジークラシファイアシステムによるQoSマッピングルールの獲得
中岡 謙 松田 潤 
誌名:   電子情報通信学会論文誌 D
発行日: 2002/01/01
Vol. J85-D1  No. 1 ; pp. 69-78
論文種別:  論文
専門分野: 人間・機械系,マルチメディア処理
キーワード: 
QoS制御QoSマッピング強化学習ファジークラシファイアシステム
 あらまし | 本文:PDF(272.9KB)

遅れ報酬に基づく遺伝的アルゴリズムによる部分観測マルコフ決定問題の解決手法
山城 啓秀 上野 敦志 武田 英明 
誌名:   電子情報通信学会論文誌 D
発行日: 2001/12/01
Vol. J84-D1  No. 12 ; pp. 1635-1647
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
強化学習遺伝的アルゴリズム部分観測マルコフ決定問題知覚の見せかけ問題
 あらまし | 本文:PDF(1.3MB)

Actor-Qアーキテクチャに基づく能動認識学習システム
柴田 克成 西野 哲生 岡部 洋一 
誌名:   電子情報通信学会論文誌 D
発行日: 2001/09/01
Vol. J84-D2  No. 9 ; pp. 2121-2130
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習ニューラルネット能動認識Actor-Qアーキテクチャ視点移動
 あらまし | 本文:PDF(1.2MB)

ラットの空間探索課題における海馬-大脳基底核モデル
伊藤 真 三宅 章吾 沢田 康次 
誌名:   電子情報通信学会論文誌 D
発行日: 2001/09/01
Vol. J84-D2  No. 9 ; pp. 2107-2120
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
海馬大脳基底核強化学習場所細胞
 あらまし | 本文:PDF(1.7MB)

相手モデル学習を取り入れたマルチエージェント系の強化学習法
松野 陽一郎 山崎 達也 松田 潤 石井 信 
誌名:   電子情報通信学会論文誌 D
発行日: 2001/08/01
Vol. J84-D1  No. 8 ; pp. 1150-1159
論文種別:  特集論文 (ソフトウェアエージェントとその応用論文特集)
専門分野: モデル/理論
キーワード: 
マルチエージェント系強化学習Actor-Criticアルゴリズム相手モデル学習ゲーム学習
 あらまし | 本文:PDF(520.4KB)

マクロオペレータの部分的再利用による強化学習システムの動的環境への適応能力の改善
嶋田 総太郎 安西 祐一郎 
誌名:   電子情報通信学会論文誌 D
発行日: 2001/07/01
Vol. J84-D1  No. 7 ; pp. 1076-1088
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
強化学習動的環境マルコフ決定過程マクロオペレータ
 あらまし | 本文:PDF(852.5KB)

動的環境下におけるProfit Sharing
加藤 新吾 松尾 啓志 
誌名:   電子情報通信学会論文誌 D
発行日: 2001/07/01
Vol. J84-D1  No. 7 ; pp. 1067-1075
論文種別:  論文
専門分野: 人工知能,認知科学
キーワード: 
強化学習profit sharing動的環境
 あらまし | 本文:PDF(664.8KB)

不揮発性ユニットを含む2次元セル型神経回路網の提案
平津 大輔 長尾 智晴 
誌名:   電子情報通信学会論文誌 D
発行日: 2001/03/01
Vol. J84-D2  No. 3 ; pp. 571-579
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
セル型神経回路網遺伝的アルゴリズム人工生命強化学習
 あらまし | 本文:PDF(835.9KB)

知覚情報の粗視化によるマルチエージェント強化学習の高速化-ハンターゲームを例に-
伊藤 昭 金渕 満 
誌名:   電子情報通信学会論文誌 D
発行日: 2001/03/01
Vol. J84-D1  No. 3 ; pp. 285-293
論文種別:  論文
専門分野: 分散協調とエージェント
キーワード: 
マルチエージェント強化学習粗視化
 あらまし | 本文:PDF(758.1KB)

マルチエージェントシステムを用いたエレベータ群管理システム
小越 康宏 木村 春彦 広瀬 貞樹 大里 延康 
誌名:   電子情報通信学会論文誌 D
発行日: 2001/02/01
Vol. J84-D1  No. 2 ; pp. 191-202
論文種別:  論文
専門分野: 分散協調とエージェント
キーワード: 
エレベータ群管理かご割当て出勤時運転マルチエージェント強化学習
 あらまし | 本文:PDF(1.3MB)

マルチステップ状態予測を用いた強化学習によるドライバモデル
小池 康晴 銅谷 賢治 
誌名:   電子情報通信学会論文誌 D
発行日: 2001/02/01
Vol. J84-D2  No. 2 ; pp. 370-379
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習フォワードモデル視線自動運転
 あらまし | 本文:PDF(1.1MB)

エレベータ群管理システムに対する一考察
小越 康宏 木村 春彦 広瀬 貞樹 大里 延康 
誌名:   電子情報通信学会論文誌 A
発行日: 2001/01/01
Vol. J84-A  No. 1 ; pp. 22-32
論文種別:  論文
専門分野: システムと制御
キーワード: 
エレベータ群管理かご割当て出勤時運転強化学習
 あらまし | 本文:PDF(866KB)

強化学習型マルチエージェントによる交通信号制御
参沢 匡将 木村 春彦 広瀬 貞樹 大里 延康 
誌名:   電子情報通信学会論文誌 D
発行日: 2000/05/25
Vol. J83-D1  No. 5 ; pp. 478-486
論文種別:  論文
専門分野: 分散協調とエージェント
キーワード: 
交通信号制御マルチエージェント強化学習協調
 あらまし | 本文:PDF(560.1KB)

オンラインEMアルゴリズムによる強化学習法のacrobot制御への応用
吉本 潤一郎 石井 信 佐藤 雅昭 
誌名:   電子情報通信学会論文誌 D
発行日: 2000/03/25
Vol. J83-D2  No. 3 ; pp. 1024-1033
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
acrobot強化学習actor-criticモデル正規化ガウス関数ネットワークEMアルゴリズム
 あらまし | 本文:PDF(577.6KB)

経由点表現を用いた強化学習
宮本 弘之 森本 淳 銅谷 賢治 川人 光男 
誌名:   電子情報通信学会論文誌 D
発行日: 1999/11/25
Vol. J82-D2  No. 11 ; pp. 2111-2117
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習経由点運動制御ロボティクス振り子の振り上げ
 あらまし | 本文:PDF(577.4KB)

強化学習を用いた高次元連続状態空間における系列運動学習 ―起き上がり運動の獲得―
森本 淳 銅谷 賢治 
誌名:   電子情報通信学会論文誌 D
発行日: 1999/11/25
Vol. J82-D2  No. 11 ; pp. 2118-2131
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習Actor-critic法動径基底関数(RBF)正規化ガウス関数ネットワーク起き上がりロボット
 あらまし | 本文:PDF(1.3MB)

RBFネットワークを用いた時変環境におけるQ-learning遺伝的アルゴリズムによる有用度関数の構成法
村川 正宏 米井 友浩 樋口 哲也 吉澤 修治 
誌名:   電子情報通信学会論文誌 D
発行日: 1998/12/25
Vol. J81-D2  No. 12 ; pp. 2828-2840
論文種別:  論文
専門分野: バイオサイバネティックス,ニューロコンピューティング
キーワード: 
強化学習Q-learning動径基底関数遺伝的アルゴリズム時変環境
 あらまし | 本文:PDF(943.8KB)

ファジーQ学習の性能評価
呉 志賢 中島 智晴 石渕 久生 
誌名:   電子情報通信学会論文誌 D
発行日: 1998/01/25
Vol. J81-D2  No. 1 ; pp. 194-197
論文種別:  レター
専門分野: 
キーワード: 
強化学習Q学習ファジー推論ファジールールハイブリッドアルゴリズム
 あらまし | 本文:PDF(249.9KB)

利得行列が不可視である行列ゲームへのStGAの応用
冨川 裕樹 棟朝 雅晴 高井 昌彰 
誌名:   電子情報通信学会論文誌 D
発行日: 1997/02/25
Vol. J80-D2  No. 2 ; pp. 700-702
論文種別:  レター
専門分野: 
キーワード: 
強化学習遺伝的アルゴリズム確率学習オートマトン行列ゲーム
 あらまし | 本文:PDF(194.1KB)

コンセプトネットワークによるルール強化学習に基づくマルチエージェントシステム
阿部 倫之 中沢 実 服部 進実 
誌名:   電子情報通信学会論文誌 B
発行日: 1996/05/25
Vol. J79-B1  No. 5 ; pp. 226-237
論文種別:  特集論文 (フレキシブルな通信ネットワーク論文特集)
専門分野: エージェント通信
キーワード: 
マルチエージェント分散協調PI強化学習コンセプトネットワークルールの付け値
 あらまし | 本文:PDF(810.9KB)

確率学習における遺伝的アルゴリズムの適用
棟朝 雅晴 高井 昌彰 佐藤 義治 
誌名:   電子情報通信学会論文誌 D
発行日: 1996/02/25
Vol. J79-D2  No. 2 ; pp. 230-238
論文種別:  論文
専門分野: 人工知能,自然言語処理,認知科学
キーワード: 
遺伝的アルゴリズム確率学習オートマトン強化学習アルコフ連鎖
 あらまし | 本文:PDF(606.5KB)