表の属性と属性値の関係を利用した類義語抽出

関 恒仁  嶋田 和孝  遠藤 勉  

誌名
電子情報通信学会論文誌 D   Vol.J89-D   No.9   pp.2087-2100
発行日: 2006/09/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
,  構造情報,  スペック情報,  類義語抽出,  

本文: PDF(585KB)
>>論文を購入


あらまし: 
本論文では,表の属性と属性値という関係を利用して類義語を抽出する手法を提案する.まず,属性を対象語とし,その対象語に対応する属性値から索引語を抽出し,ベクトル化する.続いて,潜在的意味インデクシング(LSI)を用いて,ベクトル空間を圧縮する.そのベクトル空間に対して,k平均アルゴリズムによって対象語をクラスタリングし,類義語を抽出する.ここでは,球面k平均アルゴリズムを用いる.しかし,k平均アルゴリズムは,初期種子点を定めずに,初期分割をランダムに行うとクラスタリング結果に揺れが生じてしまい,それがクラスタリング結果に大きく影響する場合がある.また,最適なkの値をあらかじめ定めておく必要がある.このような問題点をドメイン知識や統計量を利用して解決する.提案手法について実験を行った結果,良好な結果が得られることを確認した.