講演音声認識のための類似話者選択に基づくDNN-HMMの教師なし適応

三村 正人  河原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J98-D   No.11   pp.1411-1418
発行日: 2015/11/01
Online ISSN: 1881-0225
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声認識,  ディープニューラルネットワーク(DNN),  話者適応,  講演音声,  

本文: PDF(414.9KB)
>>論文を購入


あらまし: 
講演音声では単一の話者が長時間の発話を行うため,その音声認識においては音響モデルの話者適応が重要である.本論文では,評価データ(評価話者)に類似する話者を学習用データベース中から選択し,この類似話者のデータを用いた再学習を行うことでディープニューラルネットワーク(DNN)の教師なし話者適応を行う方法を提案する.話者類似度の尺度として複数の話者特徴量を検討・比較する.評価実験において,ユニバーサルバックグラウンドモデル(UBM)と主成分分析(PCA)に基づく特徴量が最も高い性能を実現し,適応モデルによる認識精度はベースラインDNN及び適応済みGMM-HMMと比べて有意に改善した.提案手法単独では評価データと初期認識結果を用いたDNNの再学習に基づく適応手法に及ばなかったものの,これらを組み合わせることにより,有意な改善を得ることができた.