話者選択と移動ベクトル場平滑化を用いた声質変換における写像元話者の選択方法

橋本 誠  樋口 宜男  

誌名
電子情報通信学会論文誌 D   Vol.J81-D2   No.2   pp.249-256
発行日: 1998/02/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
声質変換,  スペクトル写像,  話者選択,  コードブックマッピング,  VFS,  話者適応,  

本文: PDF(538.6KB)>>
論文を購入




あらまし: 
話者選択と移動ベクトル場平滑化法(VFS: Vector Field Smoothing method)を用いた声質変換のためのスペクトル写像法(以下,SSVFSと略記)における写像元話者の選択方法を提案した.SSVFSでは,まず話者選択により,複数話者の音声データベースの中から1名の話者を写像元話者として選択し,次に選択話者空間から目標話者空間へのスペクトル写像をVFSによって行う.筆者らはこれまでに,SSVFSにより1単語程度の少ない学習データでもデータベース音声を目標話者音声に近づけられることを示した.しかし,従来のSSVFSでは,話者選択の尺度として学習音声のケプストラム距離最小規準を用いており,この尺度はスペクトル空間の写像に用いているVFSのアルゴリズムに対する適/不適を特に考慮したものではなかった.そのため,話者によって写像精度に差が生じる原因ともなっていた.VFSは,話者間の移動ベクトルによって写像を行う手法であるため,移動ベクトル場の構造が単純なほど,写像に効果がある.本論文では移動ベクトルの向きのばらつきによって移動ベクトル場の構造を表現できるものとしてとらえ,VFSのアルゴリズムに適した話者を選択するための尺度として,移動ベクトルの向きのばらつきを反映した尺度を提案した.従来尺度との比較を行った結果,提案尺度の方が写像精度との相関が強いことが示され,提案尺度が話者に対するロバスト性の向上に有効であることが明らかとなった.