固定長セグメントの統計量を用いたHMMによる音節認識

中川 聖一  平田 好充  小野 義之  

誌名
電子情報通信学会論文誌 D   Vol.J75-D2   No.5   pp.843-851
発行日: 1992/05/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声処理
キーワード: 
音声認識,  HMM,  セグメント統計量,  次元圧縮,  K-L展開,  ニューラルネットワーク,  

本文: PDF(562.8KB)>>
論文を購入




あらまし: 
音声の動的特徴を音声認識に反映させるために,音声特徴量ベクトルに動的変化の特徴を表現させる場合や,過去のフレーム系列から予測されるフレームベクトルを利用する方法などがある.本論文では,固定長のセグメント内のフレーム系列を一つのベクトルとして扱うために,K-L展開あるいはニューラルネットワークにより次元圧縮されたベクトルを用いる場合と,時間軸方向の線形回帰係数を特徴量ベクトルとして用いる場合を,連続出力分布型HMMを使って連続音声中から切り出した音節を多数話者条件で認識することで比較した.その結果,次元圧縮されたベクトルをHMMの入力の単位とすることによって回帰係数を用いた場合と同等以上の効果が認められ,音声認識に対する動的特徴量として有効であることが確かめられた.