混合ディリクレ分布を用いたトピックに基づく言語モデル

貞光 九月  三品 拓也  山本 幹雄  

誌名
電子情報通信学会論文誌 D   Vol.J88-D2   No.9   pp.1771-1779
発行日: 2005/09/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
確率的LSA,  統計的言語モデル,  EMアルゴリズム,  LDA,  アスペクトモデル,  

本文: PDF(496.8KB)>>
論文を購入




あらまし: 
混合ディリクレ分布を多項分布パラメータの事前分布とした(合成分布は混合Polya分布),生成文書モデルを提案し,統計的言語モデルへの応用という面で高い性能をもつことを示す.本論文では,混合ディリクレ分布のパラメータ推定法及び適応時に必要な事後分布の期待値推定法をいくつか述べた後に,二つの代表的な従来の文書モデルと比較する.一つ目の従来モデルは,統計的言語モデルにトピックを取り込むときによく使われるMixture of Unigramsである.二つ目は代表的な生成文書モデルであるLDA(Latent Dirichlet Allocation)である.新聞記事を用いた文書確率及び動的に適応するngramモデルを用いた実験で,提案モデルは従来の二つのモデルと比べて低い混合数で低いパープレキシティを達成できることを示す.