Cross-Bootstrapping:特許文書からの課題・効果表現対の自動抽出手法

坂地 泰紀  野中 尋史  酒井 浩之  増山 繁  

誌名
電子情報通信学会論文誌 D   Vol.J93-D   No.6   pp.742-755
発行日: 2010/06/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 特集論文 (情報爆発論文特集)
専門分野: テキストマイニング
キーワード: 
パテントマイニング,  情報抽出,  テキストマイニング,  ブートストラップ手法,  

本文: PDF(469.5KB)
>>論文を購入


あらまし: 
特許文書から直接的なユーザの便益に相当する表現と,技術上の解決課題を示す表現を自動的に抽出するアルゴリズム「Cross-Bootstrapping」を提案する.特許出願件数は年間40万件にものぼり,1文書当りの文章量も膨大であるため,出願動向調査に有用なパテントマップ(特許出願動向を可視化したもの)を手作業で作成するには多大な時間とコストを要するため,その作成に役立つ情報を自動的に抽出する技術が求められている.そこで,本研究ではパテントマップの作成に役立つ「直接的なユーザの便益に相当する表現」と「技術上の解決課題を示す表現」を自動的に抽出する.本手法は,二つの手がかりと統計情報を用いて,ブートストラップ的に表現対を抽出する.また,辞書や人手により作成したパターンを用いず,自動的に表現を抽出することができる.最後に本手法の評価実験を行い,F値0.89と高い性能を達成したことを確認した.