文字類似度と統計的言語モデルを用いた日本語文字認識誤り訂正法

永田 昌明  

誌名
電子情報通信学会論文誌 D   Vol.J81-D2   No.11   pp.2624-2634
発行日: 1998/11/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 人工知能,自然言語処理,認知科学
キーワード: 
文字認識,  誤り訂正,  統計的言語モデル,  文字類似度,  自然言語処理,  

本文: PDF(865.4KB)>>
論文を購入




あらまし: 
本論文では,日本語のように文字種が多くかつ単語を分かち書きしない言語のための文字認識誤り訂正法を提案する.本手法は,文字の類似度を考慮した統計的文字認識装置モデル,未知語を考慮した統計的言語モデル,短い単語に適用可能な類似単語照合法,および,確率が大きい順に任意の数の候補を求めるN-best単語列探索法から構成され,広い範囲の日本語文および広い範囲の文字認識率に対して頑健かつ高精度な文字認識誤り訂正が可能である.EDRコーパス(約500万語)を用いた実験では,文字認識率が70%,80%,90%のテキストに対して,本手法は文字認識率をそれぞれ88.3%,94.1%,97.4%に改善した.