話者選択と移動ベクトル場平滑化による声質変換のためのスペクトル写像

橋本 誠  樋口 宜男  

誌名
電子情報通信学会論文誌 D   Vol.J80-D2   No.1   pp.1-9
発行日: 1997/01/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
声質変換,  スペクトル写像,  コードブックマッピング,  VFS,  話者適応,  

本文: PDF(624.1KB)>>
論文を購入




あらまし: 
データベースの音声を少量学習データで入力話者音声(目標話者音声)に変換する声質変換のためのスペクトル写像法を提案した.本方式では,話者選択により,複数話者の音声データベースの中から入力話者に近い話者をスペクトル距離最小規準により1名選択し,選択話者空間から入力話者空間へのスペクトル写像を移動ベクトル場平滑化法(VFS: Vector Field Smoothing method)によって行う.1単語/uchiawase/のみで学習し,別の50単語で写像を行った場合の変換音声と目標話者音声とのケプストラム距離の変化を調べた結果,平均で約25%,最大で約41%減少することが明らかとなり,有効性が示された.更に,ABX聴取実験による主観評価実験を行った結果,約66%の割合で変換音声が選択話者より目標話者に近いと認められた.また,最適学習データ決定過程のモデル化のために,学習の度合を示す学習量を評価尺度としてとらえ,VFSの学習過程を考慮した学習量の定義付けを行った場合と,考慮しない定義付けを行った場合について,写像精度との相関を調べた.その結果,VFSの学習過程を考慮した場合には比較的強い相関が見られることが明らかになり,VFS学習過程を考慮したモデルにより最適学習データの決定が可能であることが示された.