ニューラルファジィ学習法による音声認識の性能向上

小森 康弘  アレキサンダー ワイベル  嵯峨山 茂樹  

誌名
電子情報通信学会論文誌 D   Vol.J75-D2   No.7   pp.1101-1110
発行日: 1992/07/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声処理
キーワード: 
音声認識,  ニューラルネットワーク,  ニューラルファジィ学習,  TDNN,  

本文: PDF(680.9KB)>>
論文を購入




あらまし: 
本論文では,音素識別ニューラルネットワークのための新しい「ニューラルファジィ学習法」を提案する.提案する学習方法では,教師信号に一つの確定したクラス情報を与える従来法と異なり,非確定的(ファジィ)なクラス情報を与える.この新しい学習方法により,音素識別における累積認識の向上と過学習を回避した頑健性のあるニューラルネットワークの構成をねらう.提案するニューラルファジィ学習法は,バックプロパゲーション法により実現される.従来の学習法では,ニューラルネットワークの教師信号に一つの確定した音素クラス情報を1または0で与えている.提案する学習法では,教師信号にファジィな音素クラス情報を学習サンプルごとに全音素クラスに対する類似度として0と1の間の値で与える.提案する本学習法では,この類似度を学習サンプルとそのサンプルに最も近い各音素クラスに属するサンプルとの距離dの単調減少関数(例:exp(-αd2))により求める.提案するニューラルファジィ学習法は,全学習サンプル間の距離計算を行って教師信号を求めるため,ばく大な計算量を必要とする欠点がある.この問題に対処するために,音素クラスごとに代表サンプルを選び,これら代表サンプルと学習サンプルとの距離に基づいて各音素クラスの類似度を求める.この類似度計算の簡略化により,教師信号を求めるための計算量はかなり削減される.ニューラルファジィ学習法の有効性を示すために,/b,d,g,m,n,N/識別,18子音識別,更にTDNN-LRを用いた文節認識実験を行った.実験にはATR音声データベースを用いた.音素識別実験では,視察ラベルを用いて切り出した音声サンプルを用いた.単語発声データでTDNNの学習を行い,文節発声,文発声データを用いて評価した.TDNN-LRを用いた文節認識実験では,視察ラベルを用い,単語発声データでTDNNの学習を行い,文節発声データを用いて評価した.いずれの実験においても,ファジィ学習法により改善がみられた.特に,TDNN-LRを用いた文節認識実験では,ニューラルファジィ学習法により,第1位認識率が71.2%から80.9%に改善され,第5位累積認識率は92.8%から96.0%に改善された.更に,ニューラルファジィ学習法が高速な学習方法であることが判明した.