読みの情報を用いた仮名漢字変換の精度向上効果の推定

荒木 哲郎  池原 悟  真田 陽一  横川 秀人  

誌名
電子情報通信学会論文誌 D   Vol.J84-D2   No.2   pp.351-361
発行日: 2001/02/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
読みの情報,  仮名漢字変換,  漢字仮名変換,  漢字仮名交じり文節候補,  

本文: PDF(1.6MB)>>
論文を購入




あらまし: 
従来,仮名漢字変換において,辞書引きによって得られた漢字仮名文字列をマルコフ連鎖モデル等を使用して絞り込む方法が提案されているが,絞り込まれた候補の中には,まだ,変換誤りが含まれていることが多い.変換誤りの部分を見ると,日本語としてスムーズに読めないか,または,読めてももとの仮名文字列(音節列)に戻らない場合が多いことが指摘できる.したがって,今後,仮名漢字変換の過程で,仮名漢字交じり文の「読みに関する情報(読みの規則)」を適切に使用することができれば,変換精度は,更に向上するものと期待される.この点に着目し,本論文では,日本文音声変換システムの漢字仮名変換機能を利用することにより,仮名漢字変換において「読みの規則」を使用した場合の変換精度の向上効果を推定した.具体的には,まず,仮名文(合計472文節)に対して単語辞書(43万語)を用いて得られた単語候補の連鎖をマルコフ連鎖モデルによって絞り込んだ.次に,このようにして得られた漢字仮名交じりの日本文候補を日本文音声変換システム(JTOS)の漢字仮名変換機能を使用して仮名文字列に逆変換し,もとの仮名文字列と一致する候補のみを正解候補とすることにより,読みの規則の効果を推定した.以上の結果,「読みの規則」を用いることにより,従来の方法に比べて,誤った変換候補の71%は,その生成を抑止できること,また,生成される候補の第1位の候補の正解率は 4.1%向上して88.1%となること,更に,第1位の候補の誤りは80%以上が同音意義語であることがわかった.