多数話者モデルを用いた討論音声の教師なし話者インデキシング

秋田 祐哉  河原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J87-D2   No.2   pp.495-503
発行日: 2004/02/01
Online ISSN: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
話者認識,  教師なし話者インデキシング,  討論音声,  多数話者モデル,  音声認識,  

本文: PDF(1.1MB)
>>論文を購入


あらまし: 
討論などの長時間音声のアーカイブ化を指向した教師なし話者インデキシングのために,多数話者との類似度を用いたオフラインのインデキシング手法を提案する.音声データベースから構築した多数話者モデル(Anchor models)による話者識別スコアを成分として発話ごとに話者ベクトルを構成し,これをクラスタリングする.ベクトルの話者分離能力を向上させるため,次元の正規化や圧縮の手法を導入する.クラスタリングの結果に基づき最終的に各話者のモデルを構築し,これを用いて話者識別を行うことで話者インデキシングを実現する.実際の討論音声を用いた実験の結果,97.1%のインデキシング精度を得た.また,このインデキシング結果に基づいて話者適応を施した音響モデルにより音声認識を行い,単語誤り率を6%削減することができた.