韻律的に多重化した音声データベースの設計と発話速度におけるその評価

舛田 剛志  戸田 智基  川波 弘道  猿渡 洋  鹿野 清宏  

誌名
電子情報通信学会論文誌 D   Vol.J87-D2   No.2   pp.447-455
発行日: 2004/02/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声合成,  STRAIGHT,  韻律,  発話速度,  データベース,  

本文: PDF(652.4KB)>>
論文を購入




あらまし: 
本論文では,多様な発話速度制御が可能で高品質な音声合成手法の検討を行う.波形素片接続方式では,PSOLA法や分析合成手法を用いて韻律の変更を行う場合,変更の程度に応じて品質劣化が生じる.そこで,発話速度ごとの音声データベースを用いることにより,音素持続時間の変更量を削減し品質劣化を低減する手法を提案する.本手法の特徴は,( 1 )目標とする発話速度の合成音声を発声ごとに呈示して音声を収録すること,( 2 )発話速度の異なる同一のテキストの音声データベースを作成すること,である.本手法では,速い・普通・遅いの3種類の発話速度の音声データベースを収録した.本手法で収録した音声データベース及び従来法(標準的な発話速度の音声データベース)を用いて,2種類(速い・遅い)の発話速度の音声を合成し,聴取実験を行った結果,本手法は従来法と比較してより高品質な音声が合成可能であることが分かった.また,発話速度の異なる音声データベースを統合して使用した場合,データベース間の声質の違いの影響により音質が劣化する可能性があるが,聴取実験を行って調査した結果,声質による影響は許容範囲にあると考えられる.