複数特徴の重み付き統合による雑音に頑健な発話区間検出

木田 祐介  河原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J89-D   No.8   pp.1820-1828
発行日: 2006/08/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声認識,  発話区間検出,  最小分類誤り学習,  雑音適応,  

本文: PDF(415.9KB)
>>論文を購入


あらまし: 
発話区間検出(VAD)は雑音環境下での音声認識において重要な要素技術であるが,従来法は雑音条件に大きく依存し,安定して高い性能を得るのが難しい.そこで本研究では複数の特徴を重み付き統合し,更に重みを最適化することにより種々の雑音に頑健なVADを実現する手法を提案する.提案手法では,VADの代表的な特徴である振幅レベル,ゼロ交差数,スペクトル情報,GMM対数ゆう度の4種類を統合的に用いる.これらの特徴の統合は,雑音環境に応じて最適な特徴を選択することを事実上包含しており,また統合重みを最適化することにより更なる検出性能の向上が期待できる.統合重みの最適化には最小分類誤り(MCE)学習を用いる.3種類の雑音環境下での実験により,提案手法の雑音への頑健性を確認した.また重みの最適化が実際に検出性能を改善すること,数回程度の発話で雑音環境に適応できることが示された.更に,検出された音声区間に対して音声認識実験を行い,VADの性能の向上が音声認識の精度を高めることを確認した.