全周方向での音源位置推定及び肌色情報との統合による話者位置推定への適用

高橋 哲史  今井 順一  金子 正秀  

誌名
電子情報通信学会論文誌 D   Vol.J90-D   No.8   pp.2232-2241
発行日: 2007/08/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 特集論文 (画像の認識・理解論文特集)
専門分野: マルチメディア応用
キーワード: 
音源位置推定,  全周方向,  話者位置,  肌色情報,  CSP法,  

本文: PDF(549.4KB)>>
論文を購入




あらまし: 
ロボットがユーザとコミュニケーションをとるためには,まずユーザがどこにいるかを知る必要がある.この際,ユーザが常にロボットの正面にいるとは限らず,ロボットの後ろから声をかけられることも考えられる.そこで本論文では,全周方向での話者位置推定手法について述べる.まず,多チャネルのマイクロホンを用いて,音源からマイクロホンまでの音の到来時間差を利用して音源位置推定を行う.全周方向での三次元位置推定を行う際の推定精度と処理時間の観点から,最適なマイクロホン数と配置方法を導いた.次に,音源が話者であることを利用して音源位置推定の精度の向上を図る.様々な人種の肌色に適用できる色相,彩度に関するGMM(ガウス混合モデル)に対し,個別のシーンに適したGMMを学習により求め,シーン中の人物の肌色領域を安定して抽出できるようにした.音源位置推定結果と肌色ゆう度をベイジアンネットワークを用いて統合することにより,高精度の話者位置推定法を実現した.実験により,本手法により全周方向での話者位置推定を効果的に行えることを確認した.