World Wide Webを用いた事典知識情報の抽出と組織化

藤井 敦  石川 徹也  

誌名
電子情報通信学会論文誌 D   Vol.J85-D2   No.2   pp.300-307
発行日: 2002/02/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
事典知識情報,  World Wide Web,  用語説明抽出,  確率的組織化モデル,  情報処理技術者試験,  

本文: PDF(208KB)>>
論文を購入




あらまし: 
事典や辞典は言葉に関する貴重な知識源であるにもかかわらず,新語や専門用語は定義されていないことが多い.本研究は,World Wide Webに新規性や専門性が高い情報が多く流通している点に着目し,Webページを用いて事典情報を自動生成するシステムを提案する.本システムは,文章表現やHTMLレイアウトに基づいてWebページから用語説明箇所を抽出する.更に,複数の用語説明を分野や語義に基づいて分類することで組織化し,情報の質を高める.情報処理技術者試験に出題された専門用語を用いた評価実験の結果,本システムが生成した事典情報は,既存の事典よりも網羅性が高く,実用レベルの質であることがわかった.