多人数会話における音響・視線情報を統合した話者区間検出

井上 昂治  若林 佑幸  吉本 廣雅  河原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J99-D   No.3   pp.348-357
発行日: 2016/03/01
Online ISSN: 1881-0225
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
話者区間検出,  マルチモーダル,  視線,  ポスター会話,  

本文: PDF(1.2MB)
>>論文を購入


あらまし: 
多人数会話において視線情報を用いたマルチモーダルな話者区間検出手法を提案する.話者区間検出は,「いつ誰が発話したか」を検出する処理である.会話参与者の視線のふるまいは会話の発話権取得において重要な役割を担っているため,視線情報からの発話予測が可能と考えられる.しかも視線情報は,周囲の騒音や不明瞭な発話などの音響的影響を受けにくいと考えられる.提案法は,音響と視線の情報を確率モデルにより統合して発話区間を検出することにより,音響的影響への頑健性を実現する.実収録したポスター会話による評価実験において,音響情報のみの手法と比べて,雑音環境下での検出率の有意な改善を実現した.