Phonetic Tied-Mixtureモデルを用いた大語彙連続音声認識

李 晃伸  河原 達也  武田 一哉  鹿野 清宏  

誌名
電子情報通信学会論文誌 D   Vol.J83-D2   No.12   pp.2517-2525
発行日: 2000/12/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
大語彙連続音声認識,  PTM,  tied-mixture,  tied-state triphone,  Gaussian pruning,  

本文: PDF(338.9KB)>>
論文を購入




あらまし: 
大語彙連続音声認識のための新たなphonetic tied-mixture (PTM) モデルを提案する.このモデルは各音素モデル(monophone)の各状態がもつ64個のガウス分布集合をtriphoneの対応する状態に割り当て,重みのみを変えて共有することで合成する.通常の状態共有triphoneに比べて音響空間を効率良く表現でき,また巨大なコードブックを要する従来のtied-mixtureモデルよりも学習が容易である.2万語の新聞記事読み上げタスクにおいて評価した結果,triphoneでの最大性能に近い7.0% の単語誤り率をより少ないパラメータ数で達成した.処理効率の点においては,音響スコア計算に用いるガウス分布を上位3% にまで削減しても精度がほとんど低下しなかった.いくつかのガウス分布の足切り計算(Gaussian pruning)手法を提案及び比較した結果,最終的に音響ゆう度計算を約5分の1にまで削減できた.