会議音声認識におけるBICに基づく高速な話者正規化と話者適応

三村 正人  河原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J95-D   No.7   pp.1467-1475
発行日: 2012/07/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
会議音声認識,  話者正規化,  話者適応,  ベイズ情報量基準,  声道長正規化,  

本文: PDF(403KB)
>>論文を購入


あらまし: 
高精度かつ高速な会議音声の認識を指向して,音声の話者区分化と音響特徴量の声道長正規化(VTLN)及び音響モデルの話者適応を,BIC(ベイズ情報量基準)に基づいて統一的に行う枠組みについて提案する.提案手法では,音響モデルの学習コーパスに含まれる各発話区間と自動区分化した入力発話区間をΔBICにより比較し,事前に推定済みのワープ係数やMLLR変換行列を用いて,認識時に最ゆう推定を行うことなしに高速に声道長正規化及び話者適応を実現する.国会審議音声を用いた評価実験により,VTLN及びMLLR話者適応に関して,従来の初回認識を行う教師なし最ゆう推定と同等の認識精度が得られることを確認した.