ClothesAwarePoseNet: 衣服の領域分割を考慮した人物姿勢推定法

金子 直史  伊東 聖矢  鷲見 和彦  

誌名
電子情報通信学会論文誌 D   Vol.J101-D   No.8   pp.1130-1139
発行日: 2018/08/01
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2017IUP0012
論文種別: 特集論文 (画像の認識・理解論文特集)
専門分野: 
キーワード: 
人物姿勢推定,  衣服領域分割,  深層学習,  Convolutional Neural Networks,  

本文: PDF(1.5MB)
>>論文を購入


あらまし: 
近年の人物姿勢推定における進歩は,深層学習,特にConvolutional Neural Networks (ConvNets)から大きな恩恵を受けている.深層学習のメリットは,End-to-Endの学習,すなわち画像の特徴抽出から最終的な識別までが学習データに基づいて最適化されることにより,多くの問題でハンドクラフト特徴を用いるよりも性能が向上することである.一方で,深層学習においても,認識に有用な特徴を前処理として抽出することで,より性能が向上する場合がある.そのような研究の例として,人物の行動認識において,静止画だけでなく,連続フレーム間のオプティカルフロー画像を入力し,それぞれから特徴抽出を行うTwo-stream Networks [1]があり,効果が実証されている.人物姿勢推定においては,これまでそのような前処理可能な情報を並列的に用いるアプローチは取られていない.しかし,従来手法の問題点を分析すると,人物の姿勢に加え,衣服や背景のバリエーションが広範であることから,衣服の一部や所持品を身体部位と誤認識するケースや,背景を人物と認識してしまうケースが存在している.また,衣服はその種類によって,帽子は頭,靴は足にしか身に着けないなど,身体部位に対する意味的情報をもち合わせており,人物だけでなく,衣服や背景の識別を明示的に行うことで,更なる性能向上が期待される.そこで本研究では,衣服の領域分割によって生成した衣服ラベル画像を,RGB画像と並列に入力するTwo-stream型のネットワーク,ClothesAwarePoseNetを提案する.提案手法により,姿勢推定精度がベースライン[2]より向上したことを,Refined Fashionistaデータセット[3]を用いて確認した.