書式指定情報によらない紙面構成要素抽出法

秋山 照雄  増田 功  

誌名
電子情報通信学会論文誌 D   Vol.J66-D   No.1   pp.111-118
発行日: 1983/01/25
Online ISSN: 
DOI: 
Print ISSN: 0913-5713
論文種別: 論文
専門分野: 
キーワード: 


本文: PDF(753.6KB)>>
論文を購入




あらまし: 
文書紙面を構成している文字列等の要素を書式に関する情報を用いずに抽出する手法について述べる.本論文で述べる手法は,紙面全体の領域の周辺分布と,紙面を分割して得られる大きさの等しい帯状領域内の周辺分布とを用いて傾きを補正する,白画素連と黒画素連とを用いて実線及び破線の直線状図形(フィールドセパレータ)を抽出する,周辺分布から得られる紙面の大まかな特徴と,要素の持つ連続性,周期性等の性質とを利用して文字列の粗抽出を行なう,紙面の黒画素の連結成分を追跡して文字列を正確に抽出する,ことによって紙面を構成している要素の抽出を行なうものである.この手法を,それぞれ書式の異なる日刊紙(5社)の社説記事欄,計10枚のデータに適用したところ,フィールドセパレータについては100%,見出しと本文の文字列について99.0%の正しさで抽出することが出来た.この実験により,本手法が書式未知の紙面からの構成要素抽出に有効であることを確認した.