基本周波数及び音素持続時間を考慮した音声合成用波形素片 データセットの作成

河井 恒  樋口 宜男  山本 誠一  

誌名
電子情報通信学会論文誌 D   Vol.J82-D2   No.8   pp.1229-1238
発行日: 1999/08/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声合成,  波形接続,  PSOLA,  基本周波数,  音素持続時間,  

本文: PDF(637.3KB)>>
論文を購入




あらまし: 
テキスト音声合成のために基本周波数(以下,F0) 及び音素持続時間を考慮した波形素片データセットを効率的に作成することを目的として, F0・音素持続時間の出現頻度分布予測を取り入れた評価規準を用いて テキストデータベースから発声用の文セットを抽出する方法を提案する. 放送用原稿, 新聞記事などのテキストデータベースから500文を抽出する実験を行ったところ, 82.6%のカバレッジが得られた. また, この文セットを発声リストとして音声を収録したところ, カバレッジは72.9%であった. F0・音素持続時間を考慮せずに作成した同じ文数の 一般的な音素バランス文を発声して得られた音声データベースと比較したところ, 全体のカバレッジでは1.13倍であり, 同じカバレッジを得るために必要な文数は1/2であった. これらのことより, 本方式の有効性が示された.