話者混合逐次状態分割法による不特定話者音声認識と話者適応

小坂 哲夫  鷹見 淳一  嵯峨山 茂樹  

誌名
電子情報通信学会論文誌 A   Vol.J77-A   No.2   pp.103-111
発行日: 1994/02/25
Online ISSN: 
DOI: 
Print ISSN: 0913-5707
論文種別: 特集論文 (不特定話者音声認識論文特集)
専門分野: 話者適応
キーワード: 
不特定話者音声認識,  高速話者適応,  音素コンテキスト依存モデル,  Hidden Markov Network,  

本文: PDF(679.1KB)>>
論文を購入




あらまし: 
本研究では比較的少量の学習データによって不特定話者音素モデルを生成するための原理として,話者混合法を提案する.またこの原理に基づいて1秒以下の非常に短い発話で動作する話者適応方式として話者重み学習法を提案する.更にこの話者適応法において,認識率の低下なしに計算量の削減をする方法として話者プルーニング法を提案する.以上の原理を逐次状態分割法で生成された音素コンテキスト依存モデルと組み合わせることにより連続音声認識を行う.文節認識実験の結果,従来法の不特定話者HMM-LR法と比較して76.1%から82.6%と6.5%の認識率の向上を得た(27.2%の誤りの減少).また話者重み学習による話者適応では0.6秒の単語発声で75.8%から79.9%と4.1%の認識率の向上を得た(16.9%の誤りの減少).更に話者プルーニング手法を用いることにより,認識率の低下なしに混合連続出力分布の混合数を50~92%削減することができた.