統計モデルに基づく多様な音声の合成技術

能勢 隆  

誌名
電子情報通信学会論文誌 D   Vol.J100-D   No.4   pp.556-569
発行日: 2017/04/01
Online ISSN: 1881-0225
論文種別: 解説論文
専門分野: 音声,聴覚
キーワード: 
HMM音声合成,  話者の多様化,  スタイルの多様化,  声質制御,  話し言葉音声合成,  

本文: FreePDF(1.6MB)


あらまし: 
HMM音声合成に代表される統計モデルに基づくテキスト音声合成は,モデルがコンパクトであるにもかかわらず,従来の波形接続方式に比べて少ない音声データで音声に含まれる話者性や感情表現・発話様式(スタイル)を合成音声に反映することができる手法として急速に利用が広まっている.本論文では,HMM音声合成を中心とし,話者やスタイル,声質を多様化する手法についてそのアイデアや実験結果なども含めて解説を行う.HMM音声合成ではスペクトルや韻律特徴量がモデル内の各状態の分布パラメータとして表現されるため,モデルパラメータの操作,モデルの拡張が容易であり,様々な多様化手法が提案されている.代表的な話者の多様化手法として話者適応,話者補間,話者強調について,またスタイルの多様化手法としてスタイルモデリング,スタイル適応,スタイル補間,スタイル制御,スタイル変換について基本的な枠組を説明する.更に声質の制御法や話し言葉音声についても概説し,今後の課題や展望について述べる.