全音素エルゴディックHMMを用いた教師なし話者適応

宮沢 康永  大倉 計美  嵯峨山 茂樹  

誌名
電子情報通信学会論文誌 A   Vol.J77-A   No.2   pp.112-119
発行日: 1994/02/25
Online ISSN: 
DOI: 
Print ISSN: 0913-5707
論文種別: 特集論文 (不特定話者音声認識論文特集)
専門分野: 話者適応
キーワード: 
教師なし話者適応,  音素bigram,  最ゆう推定法,  全音素エルゴディックHMM,  移動ベクトル場平滑化,  

本文: PDF(635.4KB)>>
論文を購入




あらまし: 
本論文では,音素を単位とする連続音声認識のための音素モデルの教師なし話者適応の性能向上を目的として,統計的な言語情報を用いる方法を提案し,その評価を行う.本方式では音響モデルと言語モデルとを融合した一つの確率モデルである「全音素エルゴディックHMM」を用いる.この確率モデルは,標準話者のすべての音素HMMをエルゴディックに連結し,音素HMM間の遷移確率の初期値にテキストデータより得られた音素bigram確率値を用いて作成する.適応学習には最ゆう推定法を用い,更に推定誤差を補うために移動ベクトル場平滑化を用いる.標準話者1名,入力話者1名を用いた音素認識実験において,適応学習に200単語を用いた場合,約2,100単語中から切り出した23音素の音素認識率で不特定話者モデルの性能を上回った(本方式:87.8%,不特定話者:85.1%).また,適応に256文節を用いた279文節認識実験において74.6%(不特定話者69.5%)を得て,本方式の有効性が認められた.更に初期モデルの検討を行い,音響モデルの初期モデルとして不特定話者モデルを用いることが有効であることが確認された.