マルチチャネルNMFを用いた音源分離における初期値依存性の挙動解析と音声認識での評価

三浦 伊織  太刀岡 勇気  成田 知宏  石井 純  吉山 文教  上ノ原 進吾  古家 賢一  

誌名
電子情報通信学会論文誌 D   Vol.J100-D   No.3   pp.376-384
発行日: 2017/03/01
Online ISSN: 1881-0225
論文種別: 特集論文 (学生論文特集)
専門分野: 音声,聴覚
キーワード: 
音源分離,  雑音除去,  非負値行列因子分解(NMF),  マルチチャネルNMF,  音声認識,  

本文: PDF(1.4MB)
>>論文を購入


あらまし: 
非負値行列因子分解(Nonnegative Matrix Factorization: NMF)とは,非負値の行列を二つの非負行列に因子分解する手法である.音響分野ではマルチチャネル拡張によって空間情報を付与することで音源分離を行うマルチチャネルNMFが提案されている.従来のマルチチャネルNMFは局所最適解に陥りやすく,分離性能に対する初期値依存性が課題となっている.本論文では音楽データを対象に様々な初期値の設定により,初期値依存性の特性の解析を行った.その結果,分離に用いる4種の行列の内,基底行列と空間相関行列に対する初期値依存性が大きいことが確認でき,特に空間相関行列に対する初期値依存性が最も大きいことが分かった.加えて,雑音下における音声認識に対し,幾つかの初期値設定法を評価した.その結果,よく推定された空間相関行列を初期値とすることで,ランダムに初期値を設定する場合と比べて単語誤り率が減少したため,適切な初期値の設定が音声認識に対して有効であると確認した.