情報理論的クラスタリングを用いた確率的潜在意味解析の性能向上

内山 俊郎  

誌名
電子情報通信学会論文誌 D   Vol.J100-D   No.3   pp.419-426
発行日: 2017/03/01
Online ISSN: 1881-0225
論文種別: 論文
専門分野: 人工知能,データマイニング
キーワード: 
トピックモデル,  情報理論的クラスタリング,  競合学習,  PLSA,  初期値設定,  

本文: PDF(464.3KB)
>>論文を購入


あらまし: 
確率的潜在意味解析(PLSA)及び潜在的ディリクレ配分モデルは,画像や文書などのデータ解析に有用なトピックモデルとして知られる.モデルパラメータ推定方法が多数提案されるなか,それらの更新規則が互いに類似し,性能差は大きくないことが指摘されている.性能を向上させる方法の一つは,これら推定方法が依存する初期値の設定方法を改善することである.そこで,重み付き情報理論的クラスタリングが,トピックモデルにハードクラスタリングの制約を加えたものと等価であることを示し,このクラスタリング結果を利用する初期値設定方法を提案する.さまざまなテキストデータを用いた実験(PLSAにおける事後確率最大推定)により,従来のランダムな初期値設定による方法よりも提案手法が優れることを示し,その有効性を確認した.