PESQと室内音響指標を用いた雑音・残響指標NRSR-PAに基づく雑音・残響下音声認識性能の予測

福森 隆寛  中山 雅人  西浦 敬信  山下 洋一  
(学生論文特集秀逸論文)

誌名
電子情報通信学会論文誌 D   Vol.J98-D   No.3   pp.343-352
発行日: 2015/03/01
Online ISSN: 1881-0225
論文種別: 特集論文 (学生論文特集)
専門分野: 音声,聴覚
キーワード: 
雑音・残響下音声認識,  音声認識性能の予測,  PESQ,  室内音響指標,  

本文: FreePDF(1.7MB)


あらまし: 
実環境において音声認識システムを利用すると,雑音や残響などの外乱の影響を受けて音声認識性能が著しく劣化する.ここで外乱による性能劣化を事前に予測できれば,その結果に基づいて性能改善手法を前処理等に反映できる.これまでに雑音下ではPerceputual Evaluation of Speech Quality(PESQ)を,残響下では室内音響指標(D値,残響時間(T60))を用いて音声認識性能を予測する手法が提案されている.しかし,これらの手法には予測指標が表現できない外乱が混入すると音声認識性能の予測精度が低下する問題がある.そこで本研究では,雑音・残響下における音声認識性能の予測精度を向上させるために,PESQ,D値,T60を用いた音声認識性能の予測式を提案する.提案法では事前に計測した発話音声やインパルス応答を用いて算出したPESQ,D値,T60,音声認識性能から雑音・残響指標Noisy-and-Reverberant Speech Recognition criteria with PESQ and Acoustic parameters(NRSR-PA)を策定する.そしてNRSR-PAを用いて性能予測を行う発話位置におけるインパルス応答と発話音声から音声認識性能の予測を試みる.評価実験の結果,従来の雑音指標・残響指標を個別に用いて性能予測する手法よりもNRSR-PAは頑健に雑音・残響下音声認識性能を予測できることを確認した.