畳み込み雑音除去自己符号化器と対数周波数領域振幅スペクトル特徴を用いた楽曲音源強調

大谷 健登  丹羽 健太  西野 隆典  武田 一哉  

誌名
電子情報通信学会論文誌 D   Vol.J101-D   No.3   pp.615-627
発行日: 2018/03/01
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2017PDP0021
論文種別: 特集論文 (学生論文特集)
専門分野: 音楽情報処理
キーワード: 
ブラインド音源強調,  畳み込みニューラルネットワーク(CNN),  雑音除去自己符号化器(DAE),  ソースフィルタモデル,  対数周波数領域振幅スペクトル,  

本文: PDF(1.8MB)
>>論文を購入


あらまし: 
本論文では,畳み込み雑音除去自己符号化器(convolutional denoising autoencoder: CDAE)と対数周波数領域振幅スペクトル特徴を利用し,楽曲信号から個々の楽器音信号を強調するための技術について提案する.これまでに提案されてきた深層ニューラルネットワーク(deep neural network: DNN)を用いて音源信号の振幅スペクトルを推定する試みの多くは,楽器音信号の物理的な性質がDNNの構造に考慮されていない.本論文では,多くの楽器音の対数周波数領域振幅スペクトルが,楽器ごとに固有の包絡構造成分と様々な基本周波数に対応する調波構造成分の重みづけ和との掛け合わせでモデル化されることに着目し,楽器音信号の特性を考慮したDNN構造を用いることで,楽器音の振幅スペクトル推定精度が向上すると考えた.対数周波数領域の振幅スペクトル特徴量をCDAEに入力することで目的音の振幅スペクトルを推定する方式を提案し,実験を通して従来方式より信号対干渉音比(signal to interference ratio: SIR)が改善することを確認した.また,目的音と雑音間の相補性に着目し,目的音だけでなく,雑音の振幅スペクトル推定を同時に行い,それらを組み合わせたところ,SIR改善量が更に上昇した.