音声翻訳システム実利用データを用いたシステム改善手法

安田 圭志  内山 将夫  大熊 英男  隅田 英一郎  松田 繁樹  磯谷 亮輔  河井 恒  中村 哲  

誌名
電子情報通信学会論文誌 D   Vol.J95-D   No.1   pp.19-29
発行日: 2012/01/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 特集論文 (異文化コラボレーション論文特集)
専門分野: 音声翻訳,統計的機械学習
キーワード: 
音声翻訳実証実験,  統計翻訳,  音声翻訳システム,  音声翻訳システム実利用データ,  

本文: PDF(1.1MB)>>
論文を購入




あらまし: 
本論文では,音声翻訳システム実利用データを用いた,機械翻訳システムのアダプテーション手法を提案する.音声翻訳システム実利用データは,原言語側での音声認識結果と,その機械翻訳結果とからなるが,原言語側の音声認識結果には音声認識誤り,目的言語側の機械翻訳結果には機械翻訳誤りがそれぞれ含まれている可能性がある.提案手法では,音声書き起しや対訳作成等の人手によるデータ整備を行うのではなく,逆翻訳を用いることにより文単位の自動評価を行い,この値により,アダプテーションデータの取捨選択を行う.実験では,平成21年度に全国5地方で実施された「地域の観光振興に貢献する自動音声翻訳技術の実証実験」により収集されたデータセットを用いた.実験の結果,ベースラインの性能が最も低い北海道のデータセットでは,提案手法により最も大きな性能改善が得られた.ベースラインの性能が最も高い九州のデータセットでは,提案手法によりフィルタリングされたデータを,翻訳モデルのアダプテーションにのみ用いた場合に性能の改善が得られた.実運用時においては,あらかじめ開発セット等を用意しておき,データをフィルタリングする際のしきい値や,アダプテーションを適用するモデルを,適宜決めていく必要があるものの,本実験により,人手による書き起こしや対訳作成なしにシステム性能の改善が得られることが示された.