品詞および可変長単語列の複合N-gramの自動生成

政瀧 浩和  松永 昭一  匂坂 芳典  

誌名
電子情報通信学会論文誌 D   Vol.J81-D2   No.9   pp.1929-1936
発行日: 1998/09/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
連続音声認識,  単語N-gram,  品詞N-gram,  可変長単語列N-gram,  複合N-gram,  

本文: PDF(554KB)>>
論文を購入




あらまし: 
近年,連続音声認識の性能向上を目的としたN-gramと呼ばれる統計的言語モデルが盛んに用いられているが,本論文では,N-gramの推定確率の信頼度,および予測精度の向上を目的とした,品詞および可変長単語列との複合N-gram言語モデルを提案する.本モデルは,品詞クラスBigramを初期状態とし,エントロピー最小化基準を用いて,品詞クラスからの単語の独立,および連接単語の結合という2種類のクラス分離を逐次的に繰り返すことにより生成される.自動生成された複合N-gramは,与えられたパラメータ数で学習コーパスの言語特徴を効率的に表現する言語モデルとなる.実験の結果,提案する複合N-gramは,単語N-gramよりもテストセットパープレキシティが低く,また,連続音声認識に適用した結果,単語Bigramよりも認識率が向上することを確認した.