最ゆう状態系列を用いた実時間ケプストラム平均値正規化の検討

黒岩 眞吾  加藤 恒夫  樋口 宜男  

誌名
電子情報通信学会論文誌 D   Vol.J82-D2   No.3   pp.332-339
発行日: 1999/03/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声認識,  電話,  CMS,  正規化,  フレーム同期処理,  

本文: PDF(233.5KB)>>
論文を購入




あらまし: 
電話網経由での音声認識では, ハンドセットや回線の違いによる周波数特性の差異が認識率を下げる大きな原因の一つとなっている. この周波数特性の差異を正規化する手法として,ケプストラム平均値正規化(CMS)が提案されており, その効果が多くの研究機関によって確認されている. しかし,同手法は一般的には入力音声全体のケプストラム平均値を用いて正規化を行うため, リアルタイムシステムへの適用は困難であった. そこで本論文では, まず,短い音声からでもその発声内容を手掛りに長時間音声のケプストラム平均値を 推定できる手法について述べる. 更に,この推定手法を用い,認識処理の過程で得られる当該時刻までの最ゆう状態系列に基づき, フレーム同期で長時間音声のケプストラム平均値を推定しつつ正規化を行う手法を提案する. 最後に,「時差エリアコード案内システム」により収集したフィールドデータを用い, 提案手法が従来のCMSと同等以上の認識性能をリアルタイムで達成できることを示す.