確率的LSAに基づくngramモデルの変分ベイズ学習を利用した文脈適応化

三品 拓也  山本 幹雄  

誌名
電子情報通信学会論文誌 D   Vol.J87-D2   No.7   pp.1409-1417
発行日: 2004/07/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
確率的LSA,  統計的言語モデル,  変分ベイズ学習,  EMアルゴリズム,  LDA,  

本文: PDF(800KB)>>
論文を購入




あらまし: 
本論文では,大域的な文脈をモデル化する確率的LSA(Probabilistic Latent Semantic Analysis: PLSA)を利用した統計的言語モデルに注目し,このモデルを未知の文脈に適応させる方法を検討する.従来の適応方法は,モデルを作成するときと同じ最ゆう推定(EMアルゴリズム)をそのまま使うものであるが,未知の文脈に動的に適応させる場合は使える文脈は少量であり,過適応を起こしやすい.本論文では一般に過適応しにくいといわれているベイズ学習(変分ベイズ学習)を用いた適応手法を検討し,unigramとtrigramモデルのtest-set perplexityを使って比較評価した.結果として,PLSAが得意とする中頻度語彙に対しては,特に適応に使える文脈の量が少ない場合,ベイズ学習を用いた適応がEM適応よりも安定して高性能であることを確認した.高い出現頻度をもつ語彙を含む場合は,EM適応の方が高いトピック混合数のときunigramモデルで優位であったが,trigramモデルではベイズ適応が優位であった.