帯域フィルタ出力の時間変化特徴量を利用した音声認識

尾上 和穂  佐藤 庄衛  小林 彰夫  本間 真一  今井 亨  

誌名
電子情報通信学会論文誌 D   Vol.J90-D   No.11   pp.3014-3023
発行日: 2007/11/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
時間変化特性,  帯域フィルタ,  音声認識,  音響特徴量,  

本文: PDF(489.4KB)>>
論文を購入




あらまし: 
雑音の混入した音声や対談調の音声の認識性能を向上させるためには,人間の音声知覚に関する知見を考慮し,知覚に重要とされる様々な音響特徴量を組み合わせることが効果的だと考えられる.本論文では,帯域フィルタ出力の時間変化量に着目したBAT (BAnd-pass filtered outputs' Temporal property feature)特徴量を提案する.BAT特徴量は,知覚に重要とされる時間方向の変動成分だけを帯域ごとに独立して抽出することで,定常雑音や回線特性の影響,及び別の帯域に混入した雑音による影響の軽減を意図したもので,主成分分析や判別分析による次元数削減の後,従来の特徴量であるMFCCやPLPと組み合わせて用いる.ニュース番組中の中継と対談調の音声の認識実験の結果,BAT特徴量は次元数削減によって単独でも従来のMFCCやPLP,MCMSと同等の認識精度が得られ,更に,従来手法の中で最も認識率の高かったRASTA-PLPと併せて用いることで,10.7%の認識誤り削減率が得られた.