複合パラメータを用いた単語音声認識に対する声道長比正規化の効果

池田 直光  坂田 聡  平山 智明  上田 裕市  渡邉 亮  

誌名
電子情報通信学会論文誌 D   Vol.J87-D2   No.7   pp.1418-1427
発行日: 2004/07/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
話者正規化,  声道長比,  ホルマント軌跡,  複合パラメータ,  音声認識,  

本文: PDF(1.5MB)>>
論文を購入




あらまし: 
本論文は,認識対象話者と標準話者の声道長比に基づき,前者のパラメータを後者のそれへ正規化して単語音声認識に適用する効果について述べている.ここでは,我々が先に提案した,2話者によって発話された同一単語のホルマント軌跡から声道長比を推定し,それによってパラメータを正規化する方法を用いた.本研究で用いる認識システムの特徴は,複合パラメータを利用することである.入力話者に制約を設けずに,年齢,性別の点で多様な話者群の単語音声を,混合話者(成人,児童)群による音素テンプレートで認識する場合,正規化後の認識率は,正規化なしで成人と児童のそれぞれの話者群から作成されたテンプレートで認識する場合よりもやや高くなった.この傾向は,単一パラメータ,複合パラメータの両方において見られ,話者を選別する必要のない認識においては,提案した正規化法の有効性が確認された.また,声道長比正規化の有無にかかわらず,複合パラメータを用いる効果は非常に大きく,IPAの5000単語辞書を用いる場合,いかなる条件でも単一パラメータよりも7%前後,あるいは,それ以上の認識率向上をもたらすことが分かった.