マルコフ連鎖モデルを用いた日本語文の置換型,挿入型及び脱落型誤りの検出・訂正法の改善

荒木 哲郎  池原 悟  佐藤 政伸  榮代 正男  

誌名
電子情報通信学会論文誌 D   Vol.J85-D2   No.1   pp.66-78
発行日: 2002/01/01
Online ISSN: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
誤り文字列,  マルコフ連鎖モデル,  誤り検出,  誤り訂正,  

本文: PDF(1.3MB)
>>論文を購入


あらまし: 
OCRや音声認識装置を通して得られる日本語文の置換型,挿入型,並びに,脱落型の誤りに対して,マルコフ連鎖確率が連続して落ち込む回数に着目して誤りタイプを識別し,自動的に訂正する方法が提案されている.しかし,連鎖確率が推定どおりの位置で推定どおりの回数だけ落ち込まない場合が4分の1程度存在し,これが,誤り訂正精度向上の妨げとなっている.本論文では,このように連鎖確率が推定どおりには落ち込まない誤り文字列では,誤り文字の直前,直後のいずれかに単語境界が存在することが多いこと,また,誤り箇所の最初の落込み位置では,連鎖確率が中程度に落ち込みやすいが,それ以外の位置ではすべて0(最大限)に落ち込んでいることに着目して,新しい誤り検出法を提案する.本方式は,連鎖確率の低下を判定するため二つのしきい値を設け,連鎖確率の落込みパターンの違いから,推定どおりの落込みと推定どおりでない落込みを区別するもので,誤りの検出精度の向上が期待できる.また,誤り訂正の精度を向上するために,2重マルコフ連鎖及び3重マルコフ連鎖を組み合わせた誤り訂正法を提案する.新聞記事5年分の標本データに対するマルコフ連鎖確率辞書を使用した実験によれば,1文字の置換型誤りの検出精度(適合率と再現率の調和平均)は,従来の方式に比べて6%向上して79.3%,訂正精度は約10%向上して60.5%となり,挿入型誤りの検出精度は約9%向上して80.8%,訂正精度は約8%向上して64.0%となるなど,かなりの精度向上効果が得られることがわかった.