形態素解析とキーワード領域内の候補文字ラティス情報を用いた単語照合による文書画像の高精度検索方式

勝山 裕  武部 浩明  黒川 浩司  齊藤 孝広  直井 聡  

誌名
電子情報通信学会論文誌 D   Vol.J88-D2   No.8   pp.1740-1749
発行日: 2005/08/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 特集論文 (画像の認識・理解論文特集)
専門分野: 画像検索
キーワード: 
文書管理システム,  文書画像検索,  OCR,  形態素解析,  

本文: PDF(695.9KB)>>
論文を購入




あらまし: 
文書管理システムにおいて,OCR結果の候補文字情報と,キーワード領域の推定を使い,通常のテキスト検索エンジンで高精度に文書画像を検索できる技術を提案する.この手法では,文書画像は最初に通常のOCRで文字認識される.次に,OCRの出力したテキストから,形態素解析によりキーワード領域が推定される.候補文字ラティスがこの領域から求められ,未登録語単語領域では k-th DP処理により,名詞単語領域では更に単語辞書との整合により,候補文字ラティスから文字列が抽出される.最後に,通常のテキスト検索エンジンによる高精度な検索を可能にするために,抽出された文字列は通常のOCRの出力したテキストに追加される.49枚のOHP文書画像を対象にした検索実験では,検索精度は,通常のOCRの出力したテキストのみで検索再現率90.1%,適合率100%であったが,提案手法では再現率98.2%,適合率100%を達成した.また,処理時間は通常のOCR処理とほぼ変わらず,テキスト量もOCRの出力したテキストの約6倍程度に収まった.