音声識別における顔映像の役割

呉 俊  田村 博  水野 義道  都築 達郎  渋谷 雄  

誌名
電子情報通信学会論文誌 D   Vol.J80-D2   No.8   pp.2066-2073
発行日: 1997/08/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 特集論文 (顔論文特集)
専門分野: インタフェースメディアとしての顔画像解析・システム
キーワード: 
話者映像,  音声識別,  映像圧縮,  側面映像,  マルチメディア,  

本文: PDF(585.6KB)
>>論文を購入


あらまし: 
いくつかの実験から話者映像効果には静止効果,低速効果,高速効果が見出され,更に映像的な特徴と明確な対応の見られない効果の存在も示唆されている.本論文では各種映像の話者映像効果を比較することを通して,顔映像が音声識別に果たす役割を検討した.その結果,映像の圧縮・再生法によりその発現に差異が見られたことを報告する.静止映像では,通常映像やISDN映像のような,話者映像効果は認められなかった.ISDN(動き優先)映像では話者映像効果は通常映像と比較して低いが,映像が効果的に機能している視聴者に対しては非唇音の正答率が向上し,MJPEG映像では圧縮率を高くすると,非唇音の正答率が低下することを示した.また正面映像ではすべての視聴者に話者映像効果が見られるのに対し,側面映像では非唇音においてゼロまたは負となる視聴者が40%程度存在した.これらの特徴を映像の低速効果と高速効果の観点から検討した.