分野の階層構造を利用したコーパスの誤り修正と文書分類への適用

福本 文代  鈴木 良弥  

誌名
電子情報通信学会論文誌 D   Vol.J89-D   No.3   pp.552-566
発行日: 2006/03/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
誤り検出と推定,  損失関数,  階層構造,  分野名タグ,  

本文: PDF(549.8KB)>>
論文を購入




あらまし: 
本論文では,人手により複数の分野名が付与された文書における分野名誤りのうち,文書分類の精度に悪影響を与えるものを自動的に検出し,修正する手法を提案する.我々は,誤り検出と修正の手掛りとして三つの点に注目する.1点目は分類に悪影響を与える事例を抽出するために機械学習Support Vector Machines(SVMs)で得られるサポートベクトルと機械学習Naive Bayes(NB)を利用する点である.2点目は誤り事例を検出するために損失関数を利用する点である.3点目は,過剰な修正を抑えるため,分野名をノードとする階層構造を利用する点である.Reuters1996のコーパスを用いて実験を行った結果,誤り検出と修正の精度はそれぞれ0.8391,0.767であった.更に,修正結果を文書分類へ適用した結果,分類精度が0.5~1.7%向上することが分かり,誤り修正の効果が現れていることが確認できた.