FPM-LRによる不特定話者連続音声認識

福沢 圭二  加藤 喜永  杉山 雅英  

誌名
電子情報通信学会論文誌 D   Vol.J76-D2   No.11   pp.2253-2263
発行日: 1993/11/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声処理
キーワード: 
音声認識,  不特定話者,  FPM,  FPM-LR,  ニューラルネットワーク,  

本文: PDF(741.5KB)>>
論文を購入




あらまし: 
本論文では,音素識別にFPM(Fuzzy Partition Model)構造をもつニューラルネットワークを用いた不特定話者連続音声認識について述べる.FPMはTDNN(Time-Delay Neural Network)と比較して高速な学習が可能である.この高速学習性を用いて,多大な学習時間を要する点が問題とされていた不特定話者の音素識別学習が可能となった.本論文では音素識別にFPMを用い,LRパーザと組み合わせたFPM-LR音声認識システムを用いて不特定話者の連続音声認識の評価を行った.実験は,男女各8名の音声資料を用いて音素識別学習を行い,278文節を用いて認識性能の評価を行った.実験の結果,FPMはTDNNと比較して学習時間が短いこと,男性,女性,およびそれらの混合にするMulti-FPM-LR方式を用いることで性能の向上が図れること,学習に多様な発話様式の音声(単語,文節)を用いることの効果,音響特徴量にパワーおよびデルタスペクトルを加えることの効果が示され,278文節の認識において認識率80.0%が達成された.最後に,文音声認識の結果についても述べる.