N-gram出現回数の混合によるタスク適応の性能解析

伊藤 彰則  好田 正紀  

誌名
電子情報通信学会論文誌 D   Vol.J83-D2   No.11   pp.2418-2427
発行日: 2000/11/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 特集論文 (音声情報処理:現状と将来技術論文特集)
専門分野: 将来技術の基礎理論:音声認識・理解・対話
キーワード: 
統計的言語モデル,  N-gram,  タスク適応,  語彙,  

本文: PDF(543.7KB)>>
論文を購入




あらまし: 
あるタスクについてN-gram言語モデルを作成するには,そのタスクに属する言語資料を大量に集めなければならない.しかし,特定のタスクについてサンプルを大量に集めることは困難である.本論文では,大量の一般的な言語資料(タスク独立テキスト)と,少量の特定タスクのサンプル(適応テキスト)から,特定タスク向きのN-gramを作成する「タスク適応」について検討する.ここで用いているタスク適応法は,タスク独立テキストと適応テキストとを重み付きで混合するという方法(事前型タスク適応)である.まず,この手法とMAP推定,Bayes推定との関係を明らかにする.また,適応時のモデルの語彙の設定法について検討する.一般的な言語資料には目的のタスクと無関係な単語が多く含まれるため,これらを未知語として語彙から除外することにより,モデルの精度を高めることができる.対話音声認識のシミュレーション実験により,この手法の性能を詳細に解析した.その結果,パープレキシティ及び単語誤り率において,適応テキストのみから作成したモデルよりも高い性能を示すことが確認された.