潜在トピックを用いたブログ空間からの情報伝搬ネットワーク抽出

横山 正太朗  江口 浩二  大川 剛直  

誌名
電子情報通信学会論文誌 D   Vol.J93-D   No.3   pp.180-188
発行日: 2010/03/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 特集論文 (データ工学論文特集)
専門分野: 情報検索 Web情報システム
キーワード: 
情報伝搬ネットワーク,  カスケード,  ブログ空間,  確率的トピックモデル,  

本文: PDF(346.7KB)>>
論文を購入




あらまし: 
近年ブログの利用が爆発的に増加しており,重要な情報源の一つになりつつある.ブログは,ハイパリンクを利用することで,参考にした情報を明示的に参照することが可能であり,このネットワークを対象にした研究が最近注目されつつある.しかし,こういった研究のほとんどが,リンク情報のみを対象にしており,本文の情報を参照していない.そこで本研究では,リンク構造だけでなく,本文のトピックを推定し,適切に情報伝搬をとらえる手段を確立することを目的とする.文書集合の潜在的なトピックを統計的に推定するのに用いられる確率的トピックモデルの代表的なものに,潜在的ディリクレ配分法(Latent Dirichlet Allocation:LDA)が挙げられ,広く用いられている.本研究では,このLDAを用いてポストのトピックを推定し,リンク間のトピック分布を比較することで,情報伝搬の単位(カスケード)を的確に抽出する枠組みを提案する.日本語ブログデータを用いた実験において,提案手法の有効性を示す.