周辺分布,線密度,外接矩形特徴を併用した文書画像の領域分割

秋山 照雄  増田 功  

誌名
電子情報通信学会論文誌 D   Vol.J69-D   No.8   pp.1187-1196
発行日: 1986/08/25
Online ISSN: 
DOI: 
Print ISSN: 0913-5713
論文種別: 論文
専門分野: パターン認識・学習
キーワード: 


本文: PDF(800.7KB)>>
論文を購入




あらまし: 
書式が未知の印刷文書を見出し領域,本文領域,図表等を含む付属領域の3種の領域に分割し,更に見出し領域,本文領域を構成する文字列を抽出する方法について述べる.本論文では文書の大局的な性質を示す周辺分布特徴と線密度特徴,局所的な性質を示す外接矩形特徴を組み合せて用いることと,本文領域における文字列の周期性など文書を構成する要素の基本的な性質を用いることによって異なった書式を持つ文書に対し同一の手法で文書を構成する要素を抽出する方法について述べる.本手法を縦書き,横書きを含む日本語,英語の印刷文書8種に適用し実験を行ったところ見出し領域中の98.4%の見出し文字列,本文領域中の99.9%の本文文字列,付属領域中の83.3%の図表を抽出することができた.この実験により,本手法が書式未知の印刷文書からの構成要素の抽出に有効であり,しかも広い範囲の文書に適用できることを確認した.また,実験では一部の処理を専用のハードウェアを用いることにより高速化を図った.