基本周波数パターン生成過程モデルのモデルパラメータ自動推定とHMM音声合成への適用

橋本 浩弥  齋藤 大輔  峯松 信明  広瀬 啓吉  

誌名
電子情報通信学会論文誌 D   Vol.J98-D   No.3   pp.481-491
発行日: 2015/03/01
Online ISSN: 1881-0225
論文種別: 特集論文 (学生論文特集)
専門分野: 音声,聴覚
キーワード: 
基本周波数パターン生成過程モデル,  モデルパラメータ自動推定,  HMM音声合成,  コンテクストラベル,  

本文: PDF(861.2KB)
>>論文を購入


あらまし: 
韻律は自然な音声合成の実現に不可欠な要素の一つである.基本周波数(F0)は,韻律を担う重要な特徴量であるが,各フレームの微細な変動成分よりも,F0の時系列パターン全体における概形が聴覚上重要であることが知られている.そのようなF0の時系列パターンのモデルとして,基本周波数パターン生成過程モデルがある.このモデルは,生理的・物理的根拠に基づくものであり,モデルパラメータは言語情報と密接な対応関係が取れるという特徴がある.しかし,観測F0パターンからモデルパラメータを自動推定することが困難であるという問題がある.そこで本論文では,人手でモデルパラメータを手動推定する際の手法に注目し,アクセント句境界・アクセント型情報を利用して,モデルパラメータを高精度に自動推定する手法を提案する.そして提案手法の活用例として,HMM音声合成における学習データのF0パターンを提案手法によって自動推定したモデルパラメータから生成したF0パターンに置き換えることにより,ラベルとよく対応がとれた“素性のよいデータ”とすることができ,合成音声の韻律を改善する.従来のHMM音声合成に比べて韻律が改善されることを客観・主観実験により確認した.