フレーム間相関を利用した音韻HMMによる音声認識

高橋 敏  松岡 達雄  南 泰浩  鹿野 清宏  

誌名
電子情報通信学会論文誌 A   Vol.J77-A   No.2   pp.153-161
発行日: 1994/02/25
Online ISSN: 
DOI: 
Print ISSN: 0913-5707
論文種別: 特集論文 (不特定話者音声認識論文特集)
専門分野: 音響モデル
キーワード: 
不特定話者音声認識,  HMM,  条件付き出力確率,  スペクトル遷移情報,  

本文: PDF(628KB)>>
論文を購入




あらまし: 
現在のHMMの問題点の一つに,出力確率分布が各状態内で常に一定で,音韻特徴量の遷移情報がモデルの仕組みの中に反映されていないという点が挙げられる.しかも,特徴ベクトルの遷移に制約がないので,互いに出力確率が高い特徴ベクトル間の遷移は,学習データ中に観測されなかった遷移でも高い出力確率が与えられている.本論文では,特徴ベクトルの2フレーム間の相関を用いて遷移を制約し,不特定話者用HMMの広がった特徴量分布を,入力話者に適した範囲に制約するBigram制約HMMを提案する.Bigram制約HMMの出力確率は,前時刻の特徴ベクトルの条件付き確率で表現されるので,出力確率分布は各時刻で動的に変化する.また,分布を制約することにより,異なる音韻間の特徴量分布の重なりが減少し,認識率を向上することができる.我々は既に,離散型不特定話者用HMMをもとに,VQコードのBigramを用いて遷移を制約する離散型Bigram制約HMMを提案し,従来のHMMよりも性能が良いことを示した.本論文では,更に高い認識性能を得るために,この手法を半連続型Bigram制約HMM,連続型Bigram制約HMMに拡張した.連続音声中の音韻認識によって評価した結果,入力話者の音声のフレーム間相関情報を用いた場合,半連続型Bigram制約HMMによって平均音韻認識率を65.4%から74.8%に,連続型Bigram制約HMMによって64.8%から74.5%に改善することができた.また,多数話者から抽出した一般的なフレーム間相関情報を用いた場合,連続型Bigram制約HMMによって64.8%から67.5%に改善することができた.