機械学習を用いた複数の大語彙連続音声認識モデルの出力の混合

宇津呂 武仁  小玉 康広  渡邉 友裕  西崎 博光  中川 聖一  

誌名
電子情報通信学会論文誌 D   Vol.J87-D2   No.7   pp.1428-1440
発行日: 2004/07/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
大語彙連続音声認識,  機械学習,  複数モデル混合,  SVM,  信頼度尺度,  

本文: PDF(849.1KB)>>
論文を購入




あらまし: 
本論文では,様々な認識特性をもった複数の大語彙連続音声認識モデルが利用できるような状況において,信頼性の高い認識結果を柔軟に組み合わせる混合規則を機械学習の手法により学習し,この規則を用いて,複数の大語彙連続音声認識モデルの出力を混合する方式を提案する.新聞読上げ音声及びニュース音声を評価音声データとして,デコーダ,音響モデルの異なる26種類の大語彙日本語連続音声認識モデルの出力を混合する評価実験を行ったところ,機械学習を用いた混合手法により,認識率最大の単独モデル,及び,ROVER法のような(重み付き)多数決を用いた混合の単語認識率を上回る性能が達成できた.また,(重み付き)多数決に基づく混合手法の場合,認識率の低いモデルが多数派を占めると,混合結果の性能が認識率の低い多数派のモデルに強く影響されるという欠点があったが,機械学習(特にSVM ― Support Vector Machines)を用いた混合手法では,認識率の高いモデルが多数派であるか少数派であるかにかかわらず,混合結果の単語認識率を安定して高く維持することができた.