音声認識のための確率文脈自由文法に基づく言語モデルの構築と評価

堀 智織  加藤 正治  伊藤 彰則  好田 正紀  

誌名
電子情報通信学会論文誌 D   Vol.J83-D2   No.11   pp.2407-2417
発行日: 2000/11/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 特集論文 (音声情報処理:現状と将来技術論文特集)
専門分野: 将来技術の基礎理論:音声認識・理解・対話
キーワード: 
音声認識,  言語モデル,  確率文脈自由文法,  係り受け文法,  Inside-Outsideアルゴリズム,  

本文: PDF(825.6KB)>>
論文を購入




あらまし: 
本論文では,確率文脈自由文法(Stochastic Context Free Grammar: SCFG)を大語彙連続音声認識に適用する手法として,文節単位の係り受け制約をもつSCFGを提案する.SCFGは,N-gramのような局所的な制約だけでなく,文全体にわたる大局的な制約をも記述できることから,非常に表現力の高い言語モデルとして知られている.しかし,SCFGのパラメータ推定にはInside-Outsideアルゴリズムを用いる必要があり,非終端記号数の3乗,かつ入力系列長の3乗に比例する莫大な計算量を要する.そのため,SCFGは大量のテキストコーパスから推定することが難しく,これまで大語彙連続音声認識用の言語モデルとして利用されることはほとんどなかった.提案する文節単位の係り受けSCFGは,Inside-Outsideアルゴリズムの計算量を係り受けの制約により非終端記号数の2乗に,文節単位の導入により更にその約1/8に削減できる有効なモデルである.EDRコーパスを用いた実験では,提案法を含む各種SCFGの性能とパラメータ推定に要する処理量を比較し,提案法が計算量を大幅に削減しつつ,パープレキシティがほとんど増加しないことを示す.毎日新聞コーパスを用いた実験では,大規模な文節単位の係り受けSCFGを構築し,大語彙連続音声認識システムに実装する.そして,語彙サイズ5000の音声認識実験を行い,SCFGによる認識性能はTrigramには及ばないものの,Trigramと併用した場合にはTrigram単独の場合に比べて約14%の単語誤りを削減できることを示す.