音声の生成モデルを用いた話者正規化手法

内藤 正樹  デン リ  匂坂 芳典  

誌名
電子情報通信学会論文誌 D   Vol.J83-D2   No.11   pp.2360-2369
発行日: 2000/11/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 特集論文 (音声情報処理:現状と将来技術論文特集)
専門分野: 将来技術の基礎理論:音声・音響情報処理
キーワード: 
声道形状,  調音モデル,  声道面積関数,  周波数ワーピング,  話者正規化,  

本文: PDF(695.1KB)>>
論文を購入




あらまし: 
少量の適応データによる高性能な話者適応を実現するため,音声の生成モデルを用いた話者正規化手法を提案する.本手法では,標準話者の調音モデルを操作することで作成した音素依存の声道面積関数と,2母音のフォルマント周波数から推定した正規化対象話者の声道形状の音素に依存しない特徴量に基づき,話者と音素に依存した声道面積関数を近似する.これにより得られる声道面積関数から計算した音声のフォルマント周波数をもとに,周波数ワーピング関数を定め,音声スペクトルを周波数軸方向に伸縮させることで話者の音声の正規化を行う.音素間の接続規則を用いた連続音素認識実験の結果,提案手法により性別依存モデルを用いた際の誤認識が約13%削減され,声道長正規化を上回る認識性能が得られた.また,提案手法の認識性能は,移動ベクトル場平滑化法(VFS)により音素バランス文10文を用い話者適応を行った場合と同等の認識性能を示し,提案手法により少量の適応データによる高性能な話者適応が実現されることを示した.