音素モデルを用いた話者ベクトルに基づく話者識別

小坂 哲夫  赤津 達也  加藤 正治  好田 正紀  

誌名
電子情報通信学会論文誌 D   Vol.J90-D   No.12   pp.3201-3209
発行日: 2007/12/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
話者認識,  話者識別,  隠れマルコフモデル(HMM),  混合ガウス分布モデル(GMM),  音素クラス,  

本文: PDF(511.7KB)>>
論文を購入




あらまし: 
本研究では,音素モデルを用いた話者ベクトルに基づくテキスト独立型話者識別について述べる.本研究の目的は,音声の音素コンテクスト情報を使用することによって,話者識別の性能を改善させることである.本話者識別システムはアンカーモデルに基づいている.このシステムでは,識別対象話者の発声とアンカーモデル間のゆう度からなる話者ベクトルによって,各々の話者が話者空間に配置される.このシステムの利点として,識別対象話者の音響モデルを必要としないという点が挙げられる.このため1発話程度の極めて少量の登録用発声で話者識別が可能となる.しかし対象話者の音響モデルを使用しないため,従来の手法では識別性能が低いという問題点があった.本研究では,性能の改善のために,アンカーモデルとして従来用いられている混合ガウス分布モデル(GMM)ではなく,音素HMMを用いる手法を提案する.音素HMMの対数ゆう度の計算には,音素認識器を使用する.30名の日本語話者識別タスクで本手法の評価を行った.実験では,平均5.5 sのごく短い発話を識別対象話者の登録用データとして使用した.この結果GMMベースのアンカーモデルシステムと比較し,72.1%の相対的改善が得られた.