日本語版ウィキペディアのカテゴリー階層に着目した日本語WordNet上位下位意味体系の拡張手法

小林 暁雄  増山 繁 

誌名
電子情報通信学会論文誌 D  Vol.J95-D  No.6  pp.1356-1368
発行日: 2012/06/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 人工知能,データマイニング
キーワード: 
オントロジー情報抽出テキストマイニング知識表現

本文: PDF(781.2KB)


あらまし: 
日本語WordNetは,独立行政法人情報通信研究機構により開発された,Princeton WordNetの日本語版であり,誰でも利用可能な大規模なシソーラスである.しかしながら,収録された語彙の多くは一般語であり,一部の著名人や国名などといった有名な固有名詞以外の固有名詞や新語はほとんど収録されていない.このため,自然言語処理の応用研究に利用する上で,これらの名詞の不足が問題になる可能性がある.一方,ウィキペディアは,誰でも参加・閲覧できるオンラインの百科事典構築プロジェクトであり,多くの名詞を記事として収録しているとともに,日々記事の追加・更新が行われている.このため,固有名詞や新語の解析を必要とする研究において,知識源として頻繁に利用されている.しかしながら,ウィキペディアには,日本語WordNetのような整理された語彙の分類体系が存在しないため,日本語WordNetのようにシソーラスとして用いるのは困難である.そこで,我々は,ウィキペディアのもつ,記事をまとめ上げるための機能の一つであるカテゴリーに着目し,これを新たな概念とし,その階層を用いることによって,日本語WordNetを拡張する手法を提案する.