スキップタイプのマルコフ連鎖モデルを用いた日本語文の脱落誤り文字列の検出と訂正法

荒木 哲郎  池原 悟  橋本 憲久  

誌名
電子情報通信学会論文誌 D   Vol.J83-D2   No.12   pp.2864-2869
発行日: 2000/12/25
Online ISSN: 
Print ISSN: 0915-1923
論文種別: レター
専門分野: 
キーワード: 
マルコフ連鎖モデル,  スキップタイプのマルコフ連鎖モデル,  脱落誤り,  べた書き漢字仮名交じり文,  

本文: PDF(238.7KB)
>>論文を購入


あらまし: 
誤字,脱落及び誤挿入の誤りが含まれる日本語文の誤り箇所において,マルコフ連鎖確率が連続して減少する回数に着目して,誤りの種別や誤り文字数を識別し,誤りを訂正する方法が知られているが,脱落誤りの検出・訂正精度が低いという問題がある.本論文では,脱落誤りの検出・訂正精度を向上させるために,従来の連続タイプのマルコフ連鎖モデルに加え,新たに定義するスキップタイプのマルコフ連鎖モデルを併用して,離れた文字間の結合力を評価することにより,脱落誤りの位置と誤り文字数を決定する新しい方法を提案する.提案した方法の有効性を評価するために,新聞記事5年分の標本データによりマルコフ連鎖確率辞書を作成し,実験を行った結果,脱落1文字誤りの場合の検出精度(適合率と再現率の調和平均)は45.1%で,従来と比べて4.5%向上し,または訂正精度(適合率と再現率の調和平均)は35.9%で,従来と比べて20%向上することがわかった.