フレーズ・トークン込みNMTモデル及びSMTによる大語彙フレーズ翻訳によるハイブリッド翻訳方式

龍 梓  木村 龍一郎  飯田 頌平  宇津呂 武仁  三橋 朋晴  山本 幹雄  
(学生論文特集秀逸論文)

誌名
電子情報通信学会論文誌 D   Vol.J102-D   No.3   pp.104-117
発行日: 2019/03/01
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2018PDP0003
論文種別: 特集論文 (学生論文特集)
専門分野: 自然言語処理
キーワード: 
NMT,  SMT,  大語彙,  フレーズ翻訳,  

本文: FreePDF(1.7MB)


あらまし: 
ニューラル機械翻訳(NMT)の弱点の一つとして,扱える語彙に限りがある点が知られている.NMTにおいては,語彙辞書に含まれていない単語は未知語トークンとして出力されるため,これが誤訳となる.従来法では,出力文に含まれた未知語トークンが対応する原言語の単語を推定しその訳語に置き換えることによって,NMTにおいて出力可能となる語彙の規模を拡大した.しかし,この方式は,単語単位での語彙規模の拡大にとどまる点が弱点であった.本論文においては,ニューラル翻訳において,大規模フレーズ語彙に対応する方式を提案する.具体的には,訓練用対訳文においてフレーズ間の二言語対応の情報を収集し,二言語間で対応済みのフレーズ対訳対を同一のトークンに置き換えた後,NMTモデルの訓練を行う.翻訳時には,NMTモデルの語彙集合中の語彙部分に対しては,NMTモデルによる訳文生成がなされ,一方,その他のフレーズまたは単語語彙部分に対しては,SMTモデルによる翻訳がなされる.日中,中日,日英,英日の各方向の翻訳において評価を行い,提案手法の有効性を検証した.