音声中の検索語検出におけるDeep Neural Networkの出力確率を用いた音響距離構築方式

紺野 良太  小嶋 和徳  李 時旭  田中 和世  伊藤 慶明  

誌名
電子情報通信学会論文誌 D   Vol.J100-D   No.8   pp.798-807
発行日: 2017/08/01
Online ISSN: 1881-0225
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声中の検索語検出,  DNN,  音響距離,  検索精度向上,  

本文: PDF(1.2MB)
>>論文を購入


あらまし: 
検索語の系列と音声ドキュメントの系列との照合を行う連続DP(Dynamic Programming)に用いる局所距離には,これまでHMM(Hidden Markov Model)を構成するGaussian Mixture Model中の分布間距離に基づく音響距離(GMM-BD)が用いられてきた.本論文では,この局所距離をDeep Neural Network(DNN)の出力確率から構築する方式を二つ提案する.ここでの系列には,サブワード/状態レベルでの系列を用いることが可能である.一つ目はDNN分布間距離に基づく音響距離(DNN-BD),二つ目はDNN事後確率から求めたConfusion Matrixに基づく音響距離(DNN-CM)である.NTCIR-9,10のFormal run,Dry run計4種のテストセットを用いた評価実験の結果,サブワード間照合では,GMM-BDと比べ,DNN-BDが+2.7pt,DNN-CMが+3.3ptの検索精度向上,状態間照合では,DNN-BDが+1.5pt,DNN-CMが+2.5ptの検索精度向上となり,提案方式の有効性を確認した.