基本周波数パターン生成過程モデルの指令の差分に着目した発話の焦点制御

越智 景子  広瀬 啓吉  峯松 信明  

誌名
電子情報通信学会論文誌 D   Vol.J98-D   No.3   pp.524-533
発行日: 2015/03/01
Online ISSN: 1881-0225
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
焦点,  音声合成,  韻律,  基本周波数パターン生成過程モデル,  

本文: PDF(971.8KB)
>>論文を購入


あらまし: 
韻律の定量的な表現である基本周波数パターン生成過程モデルは,その指令と言語情報あるいはパラ・非言語情報との間の明確な対応がとれるという利点がある.我々は既に,入力テキストから得られる情報からこのモデルの指令を統計的に推定する手法を開発し,HMM音声合成と組み合わせることで音質の性能向上を得ているが,推定された指令を修正することで,発話のスタイルの変更といった柔軟な韻律制御が可能となる.ここでは,音声による情報伝達において重要な役割を果たす語句の強調(焦点)を合成音声において実現する手法を提案する.この手法は,同一の文について焦点がある場合とない場合の音声の基本周波数パターンの違いを指令の大きさの差分として捉える.その差分をテキストと焦点位置から予測し,それによって焦点を特に指定しない合成音声の基本周波数パターンを修正するものである.差分予測は,焦点に関する少量の音声コーパスから学習可能であり,また,音声コーパスの発話者は,焦点制御を考慮しない(ベースライン)音声合成システムと同じである必要がない.更に,指令の大きさの差分として焦点制御が行われるため,差分に係数を乗ずることにより,強調の程度の補間を容易に行うことができる.