BICに基づく統計的話者モデル選択による教師なし話者インデキシング

西田 昌史  河原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J87-D2   No.2   pp.504-512
発行日: 2004/02/01
Online ISSN: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
話者モデル選択,  BIC,  教師なし話者インデキシング,  話者認識,  討論音声,  

本文: PDF(803.6KB)
>>論文を購入


あらまし: 
統計的に最適な話者モデルを選択しながら,教師なし話者インデキシングを行う手法を提案する.討論などの実世界の音声では,話者ごとの発話時間のばらつきが大きいため,画一的なモデルで話者認識・インデキシングを行うのが困難である.そこで,BICに基づいて発話の継続時間に応じて統計的に最適な話者モデル(GMMまたはVQ)を選択する方式を提案する.本方式では,発話時間の短い音声に対してVQモデル,長い音声に対してはGMMモデルが選択される枠組みを実現する.これにより,事前に話者モデルを用意しなくても,話者数が未知である条件で話者のインデキシングが可能となる.実際の討論音声に対して,従来法に比べて高いインデキシング精度を得ることができた.また,本手法により得られた話者インデキシング結果に基づいて音響モデルを話者適応することにより,音声認識精度を改善することができた.