視聴覚情報の統合に基づく音源数推定と話者ダイアライゼーション

若林 佑幸  井上 昂治  中山 雅人  西浦 敬信  山下 洋一  吉本 廣雅  河原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J99-D   No.3   pp.326-336
発行日: 2016/03/01
Online ISSN: 1881-0225
論文種別: 特集論文 (学生論文特集)
専門分野: マルチメディア処理
キーワード: 
話者ダイアライゼーション,  音源定位,  マルチモーダル処理,  音源数推定,  多人数会話,  

本文: PDF(1.4MB)
>>論文を購入


あらまし: 
多人数会話において音響情報と画像情報の統合による音源数推定手法,話者ダイアライゼーション手法を提案する.話者ダイアライゼーションは“いつ誰が発話したか”を推定することを表す.会話への参与者の発話内容はもとより,発話の交替や相槌のタイミングなど人間同士のインタラクション解明に重要な役割を果たす.本論文では,マイクロホンアレーによる音源定位手法とカメラによる会話参与者の頭部位置推定手法を統合することで話者ダイアライゼーションを実現する.また,音源定位の精度を向上するために必要である音源数パラメータについても議論する.従来音源数は既知であると仮定されるが,多人数会話においては刻一刻変化するため,事前情報として取得することは困難であった.この問題に対しても視聴覚情報の統合に基づく推定手法を提案する.従来の音響情報のみの手法と比較し,提案手法による推定精度が大きく改善することを確認した.また,音源数推定結果を話者ダイアライゼーションに利用することで更に推定精度が改善することを確認した.