深層学習を用いた日本語音声合成における基本周波数に適した言語特徴量の正規化手法

松永 悟行  大谷 大和  平原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J102-D   No.10   pp.721-729
発行日: 2019/10/01
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2019JDP7021
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
言語特徴量,  正規化,  基本周波数,  音声合成,  深層学習,  

本文: PDF(2.2MB)>>
論文を購入




あらまし: 
Deep Neural Network(DNN)を用いた音声合成の基本的な構成は,文章を構成する情報を数値で表現した言語特徴量を入力して音声を合成するための特徴量を出力するものである.これらの入出力特徴量は,DNNに適するように学習データを用いて正規化や標準化することが多い.しかし,自由文章から音声を合成する場合には,この正規化の範囲や標準化の分布から外れる値が言語特徴量に含まれる可能性がある.そして,この外れ値はDNNの外挿能力が十分でないために適切に補間されないまま伝搬して出力特徴量に誤差を生じさせる.本論文では,言語特徴量の外れ値の問題を解決するために,一発話内の閉じた条件における正規化手法を提案し,日本語の音声合成で重要な要素の一つである基本周波数について,予測誤差と合成音声の聴取による評価を行った.その結果,提案した正規化手法では,従来の正規化手法で発生していた外れ値は発生しないこと,正規化した値が基本周波数に適したものになったことにより少量の学習データでも予測誤差は従来よりも小さくなり,安定した予測が可能になることがわかった.