共変量シフト適応に基づくrandom forestsの並列分散学習

若山 涼至  村田 隆英  木村 昭悟  山下 隆義  山内 悠嗣  藤吉 弘亘  

誌名
電子情報通信学会論文誌 D   Vol.J99-D   No.8   pp.737-746
発行日: 2016/08/01
早期公開日: 2016/05/06
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2015IUP0008
論文種別: 特集論文 (画像の認識・理解論文特集)
専門分野: 
キーワード: 
Random forests,  並列分散処理,  MapReduce,  転移学習,  

本文: PDF(1.7MB)>>
論文を購入




あらまし: 
本論文では,MapReduceの枠組を用いて大規模データからrandom forestsを学習する新しい手法を提案する.Random forestsは,多数の決定木によって構成され,かつそれぞれの決定木を独立に学習することができるため,並列分散処理に非常に適した機械学習手法である.しかし,random forestsの学習をナイーブに並列分散化すると,それぞれの決定木を学習するために利用可能な学習データが少量となるため,しばしば過学習を引き起こす.本論文で提案する手法は,この過学習の問題を,以下の三つの要素を導入することで解決する.(1)全てのワーカノードで共通にもつrandom forestsである共有RFを導入する.(2)各ワーカノードのMap処理で共変量シフト適応に基づく転移学習を利用することにより,それぞれのワーカノードが保持する学習データに共有RFを適応させ,高い分類性能を獲得する.(3)転移学習によって得られたrandom forestsをマスタノードに集約するreduce処理で,分類性能の向上に寄与しない決定木を削除することにより,分類性能を大幅に落とすことなく,分類時の計算コストを削減する.実験により,提案手法が分類性能を犠牲にすることなく高速な学習を実現できることを示す.