m 重マルコフ連鎖モデルを用いた日本語文の誤字・脱落・誤挿入誤り文字列の検出と訂正法

荒木 哲郎  池原 悟  塚原 信幸  小松 康則  田川 崇史  橋本 憲久  

誌名
電子情報通信学会論文誌 D   Vol.J83-D2   No.6   pp.1516-1528
発行日: 2000/06/25
Online ISSN: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
マルコフ連鎖モデル,  誤字誤り,  誤挿入誤り,  脱落誤り,  誤り検出・訂正,  

本文: PDF(984.9KB)
>>論文を購入


あらまし: 
漢字OCR,ワープロ,音声認識装置などの入力装置を使用して計算機に入力された日本語文には,通常,誤字,脱落,誤挿入文字などの誤りが含まれるため,これらの誤りを自動的に検出し訂正する技術が期待されている.本論文では,誤字誤り,誤挿入誤り,及び脱落誤り(いずれも誤りは1文字以上)を対象に,m 重マルコフ連鎖モデルを用いて誤りの種別を識別し,誤り文字列を訂正する方法を提案する.また,本手法の効果を検証するため,2重マルコフ連鎖モデルを利用して,漢字仮名交じり表記された新聞記事文(1,200文)を対象に,それらが誤字,脱落文字及び誤挿入文字を含む場合(いずれも誤りは,擬似的に生成された1文字または2文字)について,誤り種別及び文内の誤り位置と文字数を自動的に検出,並びに訂正する実験を行った.その結果,オープンデータの誤字,誤挿入,脱落の誤りを,単に,誤りとして検出(これらの3種のいずれかの誤りとして検出)する精度は,それぞれ,1文字の誤字または誤挿入誤りの場合は適合率77.2%,再現率95.0%,2文字の誤字または誤挿入誤りの場合は適合率79.3%,再現率99.5%,また,脱落誤りの場合は適合率61.3%,再現率36.5%の精度で検出できることがわかった.更に,誤りの種別や誤り長を含めた検出精度は,誤字または誤挿入の1文字誤りの場合は,検出が適合率60.1%,再現率73.0%で行うことができ,更に訂正は誤字の場合が適合率41.2%,再現率50.0%,また誤挿入の場合が適合率41.9%,再現率52.0%の精度で自動的にできることがわかった.これと比べて,脱落誤りの検出と訂正は容易ではないが,検出が適合率54.6%,再現率32.5%,また訂正が1文字の場合には適合率29.4%,再現率17.5%の精度で行えることがわかった.オープンデータとクローズドデータによる適合率,再現率の差は,標本量の増加に伴い,新聞記事文5年分の付近で,かなり接近してくることがわかった.