複数機械学習処理におけるMapReduce最適化

福本 佳史  鬼塚 真  

誌名
電子情報通信学会論文誌 D   Vol.J96-D   No.5   pp.1118-1131
発行日: 2013/05/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 特集論文 (データ工学と情報マネジメント論文特集)
専門分野: 分散データ処理
キーワード: 
MapReduce,  マルチクエリ最適化,  機械学習,  

本文: PDF(947.6KB)
>>論文を購入


あらまし: 
MapReduceは大規模データの分散バッチ処理を実現する実践的なフレームワークであり,そのJava実装であるHadoopは多くの企業において導入され実際に活用されている.機械学習アルゴリズムをHadoop上で動作させることによって,単純な統計解析よりも有益な知識を得る分析処理が注目されつつある.しかしMapReduceを利用した機械学習は,処理結果の最適化のためにアルゴリズムに事前に与えるハイパパラメータ値が異なる複数処理を要するので,コストが大きい.そこで我々は機械学習のハイパパラメータ調整に伴う複数処理を透過的に共有化し,総処理時間を削減するための新しいフレームワークを考案した.本フレームワークは(1) 複数のMapReduceジョブから自動的に共有可能な部分を見つけ出すことで共有可能な範囲を最大化し,(2) 見つけた共有範囲から共有実行プランを生成し,それに従ってMapReduceジョブを実行することで総処理量を削減する,という二つの特徴をもつ.3種類の機械学習アルゴリズムにおいて,我々のフレームワークが透過的に共有化を実現し,処理量削減の効果を確認した.