ディープニューラルネットワークを用いた教師なしクロス適応による音声認識

冨田 健斗  高木 瑛  加藤 正治  小坂 哲夫  

誌名
電子情報通信学会論文誌 D   Vol.J101-D   No.8   pp.1190-1199
発行日: 2018/08/01
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2017JDP7076
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声認識,  教師なし適応,  ディープニューラルネットワーク,  音響モデル,  言語モデル,  

本文: PDF(847.1KB)
>>論文を購入


あらまし: 
近年,ディープニューラルネットワーク(Deep Neural Network: DNN)を使用することにより音声認識システムの大幅な性能向上が得られている.本研究ではDNNと隠れマルコフモデル(HMM)のハイブリッド型の音響モデル(DNN-HMM)を使用した日本語音声認識システムの性能向上を目指し,教師なしモデル適応の検討を行った.教師なし適応においては適応前のモデルによる認識結果を用いるが,認識誤りが適応結果に悪影響を及ぼす.認識誤りの影響を低減するために,誤り傾向の異なる複数の認識システムを使用するクロス適応が提案されている.従来から音響モデルとして使用されてきたガウス混合分布(GMM)ベースのGMM-HMMとDNN-HMMは誤り傾向が異なるため,両者を使用したクロス適応は有効であると考えられる.更に言語モデル適応を加え,計3種類のモデル適応を併用するクロス適応を提案する.日本語話し言葉コーパスを使用した認識実験の結果,提案法は有効であることが示された.