雑音環境下音声認識のためのディープニューラルネットワークを用いた識別的区分線形変換

柏木 陽佑  齋藤 大輔  峯松 信明  広瀬 啓吉  
(学生論文特集秀逸論文)

誌名
電子情報通信学会論文誌 D   Vol.J99-D   No.3   pp.255-263
発行日: 2016/03/01
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2015PDP0009
論文種別: 特集論文 (学生論文特集)
専門分野: 音声,聴覚
キーワード: 
音声認識,  耐雑音性,  特徴量強調,  ディープラーニング,  ニューラルネットワーク,  

本文: FreePDF(540.3KB)


あらまし: 
本論文では,ディープニューラルネットワークを用いた区分的線形変換による統計的特徴量強調の拡張を提案する.本提案手法の目的は,雑音環境下音声認識を想定した特徴量領域における雑音除去を目的とし,観測された音声特徴量から対応する静音環境下での音声特徴量の再現を行うことである.その際,ニューラルネットワークを用いて,観測された雑音環境下の音声特徴量より,ガウス混合分布でクラスタリングされた静音環境下における音声特徴量の領域を識別する.その後,各領域に対応する線形変換をニューラルネットワークにより得られる事後確率を重みとして足し合わせることで静音環境下での音声特徴量を推定する.これによって,ニューラルネットワークのもつ高い識別性能と,従来の生成モデルに基づく特徴量マッピング手法のもつ高い汎化性能の融合を狙う.Aurora-2データベースを用いた連続音声認識実験により,提案手法は従来の区分線形変換法の一つであるStereo-based Piecewise LInear Compensation for Environments (SPLICE)と比較して,雑音が既知の条件では53.72%単語誤り率を削減することができた.更に,ニューラルネットワークを回帰モデルとして用いたオートエンコーダと比較した場合,雑音環境が未知な条件で26.96%の単語誤り率の削減が可能となった.