セグメント統計量を用いた隠れマルコフモデルによる音声認識

中川 聖一  山本 一公  

誌名
電子情報通信学会論文誌 D   Vol.J79-D2   No.12   pp.2032-2038
発行日: 1996/12/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 特集論文 (音声言語によるコミュニケーションシステムの実現に向けて(音声認識,合成,対話処理,システム構築の諸問題)論文特集)
専門分野: 音声認識用音響モデル,話者・環境適応
キーワード: 
音声認識,  HMM,  動的特徴,  セグメント統計量,  

本文: PDF(513.5KB)>>
論文を購入




あらまし: 
基本的な構造の隠れマルコフモデル(Hidden Markov Model ; HMM)の欠点として,特徴パラメータの時間的な特性を十分に表現できないということが挙げられる.従来より音声の動的特徴を音声認識に利用するための方法として,音響特徴ベクトルの回帰係数を動的特徴量として用いる方法や,条件付きHMMを構成する方法などさまざまなものが研究されてきている.本論文では,連続する複数フレームを結合して一つのセグメントを構成しそれをHMMに入力するセグメント単位入力HMMについて述べる.セグメントを構成する際にパラメータの次元数の増加が問題となるが,それにはセグメントに対してKarhunen-Loeve展開(K-L展開)を行って次元圧縮を行うことで対処した.実験では,セグメント単位入力HMM,動的特徴量として回帰係数を用いる場合,条件付きHMMなどを連続出力分布型HMMを使って,連続音節認識,文認識,孤立単語認識の各タスクにおいて比較した.その結果,従来の方法と比較して,セグメント単位入力HMMが有効であり,またメルケプストラムのセグメント単位に回帰係数を併用することで更に認識率が向上することもわかった.