多型トピックモデルを用いたアノテーション付き文書に対する検索手法

江口 浩二  塩崎 仁博  

誌名
電子情報通信学会論文誌 D   Vol.J92-D   No.3   pp.311-320
発行日: 2009/03/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 特集論文 (データ工学論文特集)
専門分野: テキストマイニング
キーワード: 
情報検索,  確率的言語モデル,  確率的トピックモデル,  Wikipedia,  

本文: PDF(310.3KB)>>
論文を購入




あらまし: 
最近,確率的トピックモデルに基づく情報検索手法が提案され,言語モデルの枠組みにおいて潜在的ディリクレ配分法(LDA)またはその変形を用いた実験で良好な結果が報告されている.しかしながら,アノテーション付き文書を検索するタスクに対しては,LDAに基づく手法ではアノテーションによって特定された属性型を直接利用することができない.本論文では,アノテーション付き文書コレクションのための新たなアドホック検索手法を提案する.提案手法は多型トピックモデルに基づく.これは,Wikipediaにおけるエンティティ名,カテゴリーラベル,その他の語を典型とする,複数種の単語型を直接扱うことができる.この多型トピックモデルをアドホック検索に適用する方法を新たに提案し,Wikipediaを用いたエンティティ検索に関する実験においてLDAに基づく従来手法よりも統計的に有意な差で優れていることを示す.