文書集合と著者集合の依存関係を説明する潜在変数モデル

川前 徳章  坂野 鋭  山田 武士  

誌名
電子情報通信学会論文誌 D   Vol.J93-D   No.6   pp.949-959
発行日: 2010/06/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 論文
専門分野: データ工学,Web情報システム
キーワード: 
潜在変数モデル,  テキストモデル,  クラスタリング,  協調フィルタリング,  

本文: PDF(369.5KB)
>>論文を購入


あらまし: 
本論文では文書間,それらの著者間及び両者の意味的な関係を明らかにするために,著者の興味と文書の内容の潜在変数及びそれら変数間の依存関係を導入したモデルを提案する.提案モデルの特徴は,文書及び著者各々に潜在変数を導入し,通常のトピックモデルを拡張している点にある.文書ごとに導入する変数(文書クラス)は,文書のトピックを選択するための確率分布をもち,類似した内容の文書群は共通の文書クラスをもつ.同様に著者ごとに導入する変数(著者クラス)は,文書クラス選択の確率分布をもち,類似した興味をもつ著者群は共通の著者クラスをもつ.このモデルにより,文書生成を著者クラス,文書クラス及びトピックとそれら変数の依存関係を用いて表現し,その依存関係を用いて著者間及び文書間の意味的な関係を説明できる.各種データを用いた実験で,提案手法により著者クラス及び文書クラスを推定し,その結果,文書と著者の関係データを内容と興味に相当する低次元の空間に射影できること,及びテキスト生成モデルとして有効であることを確認できた.また,提案モデルは潜在変数の興味を抽出し,協調フィルタリングにも適用できることを実験で確認できた.