直交化音声セグメント符号帳を用いたHMMに基づく不特定話者単語認識

松浦 博  新田 恒雄  

誌名
電子情報通信学会論文誌 D   Vol.J76-D2   No.1   pp.1-8
発行日: 1993/01/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声処理
キーワード: 
不特定話者単語認識,  部分空間法,  HMM,  ファジィVQ,  音声セグメント,  SMQ/HMM,  統計的マトリクス量子化,  K-best等化学習,  

本文: PDF(556.7KB)>>
論文を購入




あらまし: 
スペクトル-時間パターンを直接量子化するマトリクス量子化(MQ)には,その次元数が多いこととパターン変動が少なくないことから,VQと比較して量子化誤差が増大するという問題がある.そこで,本論文ではMQの単位に音声セグメントと呼ぶ音響的/音声学的構造を導入する.また誤差尺度の計算に,統計的パターン認識手法である部分空間法を採用した統計的マトリクス量子化(SMQ)を適用する.SMQは,音声セグメントごとのパターン変動を代表する固有ベクトルセットによって直交化音声セグメント符号帳を構成することで,パターン変動を効果的に組み込むことを意図している.また,音声セグメントコード列を用いてHMMを学習する際に,1位からK位までの音声セグメントコード列を等しく取り扱う方法(K-best等化学習)を提案する.K-best等化学習はファジィVQと比較してはるかに簡潔であるにもかかわらず,同等以上の出力確率平滑化能力をもち,音声を音声セグメントコード列へ置換する際の誤差の影響を少なくできる.「SMQ/HMM+K-best等化学習」方式により,10名の未知話者が発声した類似単語対を含む100単語からなるデータセットに対して,96.0%の高い不特定話者単語認識性能を得た.