マルチ音素クラスのベイズ情報量基準に基づくオンライン話者ダイアライゼーション

奥 貴裕  佐藤 庄衛  小林 彰夫  本間 真一  今井 亨  

誌名
電子情報通信学会論文誌 D   Vol.J95-D   No.9   pp.1749-1758
発行日: 2012/09/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
話者ダイアライゼーション,  話者適応,  対談番組,  オンライン,  ベイズ情報量基準,  

本文: PDF(1.1MB)>>
論文を購入




あらまし: 
本論文では,対談音声認識のための,音素情報を利用したベイズ情報量基準に基づくオンライン話者ダイアライゼーション手法について述べる.従来のオンライン話者ダイアライゼーションは,対談音声から切り出される一つの音声区間内に多く発生する話者交替点を想定していないものや,話者判定結果をリアルタイム音声認識の話者適応に利用するには,話者判定の遅れ時間が大きく不向きなものが多い.提案手法では,ベイズ情報量基準により,複数話者が連続して発話する音声区間内の話者交替点を逐次検出しながら,オンライン性を考慮した判定手法で話者ダイアライゼーションを行う.また,音素認識から得られる音素情報に基づいて特徴量を分類した,「マルチ音素クラス」モデルを用いることで,特に短い遅れ時間での話者ダイアライゼーション精度の向上を図る.報道系情報番組の対談部分を対象とした話者ダイアライゼーション実験を行った結果,遅れ時間2秒の話者判定において,提案手法により,従来の単一音素クラスの全音素モデルに比べて話者ダイアライゼーション誤りが20.0%削減することを確認した.話者判定結果を利用した音声認識のオンライン話者適応実験では,話者交替点前後の発話に関して7.8%の単語誤り削減率を得た.