部分文字列への最適な分割と文脈を考慮した変換による翻字処理

後藤 功雄  田中 英輝  加藤 直人  江原 暉将  浦谷 則好  

誌名
電子情報通信学会論文誌 D   Vol.J92-D   No.6   pp.909-920
発行日: 2009/06/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
翻字,  分割確率,  条件付き確率,  発音単位,  文脈,  

本文: PDF(446.6KB)>>
論文を購入




あらまし: 
英語の専門用語や固有名詞は多くの場合,日本語では発音が類似したカタカナに翻字されて表現される.これらの単語は新出語が多く,辞書に登録されていない場合が多いので,自動的に翻字できると言語横断情報検索や機械翻訳などに有用である.我々は,英語の単語をカタカナの文字列へ自動的に翻字する手法を提案する.提案手法は,発音を考慮した部分文字列へ英単語を分割する確率と,その部分文字列からカタカナへ変換する確率を文脈を利用して計算する.それらの確率を同時に用いて英語の単語を条件とするカタカナの単語の条件付き確率を計算する.分割と変換は,この確率を最大化する最適なものに決定する.日英の対訳辞書を用いて評価実験を行い,本手法の有効性を確認した.