認識機能の出力あいまい性を許容した情報検索手法の一検討―認識誤り特性に着目した検索手法の分析評価―

丸川 勝美  藤澤 浩道  嶋 好博  

誌名
電子情報通信学会論文誌 D   Vol.J79-D2   No.5   pp.785-794
発行日: 1996/05/25
Online ISSN: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 画像・パターン認識,コンピュータビジョン
キーワード: 
文書認識,  文書検索,  全文検索,  認識誤り特性,  

本文: PDF(676.1KB)
>>論文を購入


あらまし: 
紙の世界と電子的な世界との掛け橋となる文書認識と,文書検索を融合する新しい技術の一つの解として,「文書認識の認識誤りを考慮して検索できる全文検索」が挙げられる.本論文では,誤り特性に着目し,認識結果のあいまい性を許容し検索する二つの手法を示し,1,083文書(約40万字)のテキストに対し印字品質の異なる2種類の認識結果(計2,166文書,約80万字)を生成して検索精度を測定することで,両手法が認識と検索とを融合する技術であることを示す.まず,検索キー展開型は,誤り特性「誤りは類似文字が原因である」により,類似文字集合を用い類似文字を検索キーの各文字に追加し,検索キーを展開し,認識誤りと柔軟なマッチングを行う.そして,複数認識候補型は,誤り特性「正解を複数候補中に含む率は高い」により,候補文字を絞り込むことで候補のより少ない範囲で累積正解率を高め,不要な検索ノイズを低減させ,これを利用して検索漏れを低減させる.実験の結果,両手法が認識と検索とを融合させる技術であり,特に,複数認識候補型の場合,通常印字品質に対しrecallのエラーが76.1%,低印字品質に対し84.9%低減することを確認した.