F0生成モデルを用いたテンプレートに基づく連続音声の句境界検出

中井 満  シンガー ハラルド  匂坂 芳典  下平 博  

誌名
電子情報通信学会論文誌 D   Vol.J80-D2   No.10   pp.2605-2614
発行日: 1997/10/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
句境界検出,  ピッチ,  アクセント句,  F0生成モデル,  韻律,  

本文: PDF(657.6KB)>>
論文を購入




あらまし: 
連続音声の認識や理解は非常に困難であり,認識精度や処理効率の向上のためには句境界情報等の利用が有効であると考えられている.我々はこれまでに連続音声中のアクセント句境界の検出という問題を,アクセント句のパターン列の認識に置き換え,F0パターン連続整合法という句境界検出法を提案してきた.この手法ではクラスタ分類によってあらかじめアクセント句の代表パターン(テンプレート)を学習しておき,入力音声のF0パターンとテンプレートをOne Stage DPの手法で連続整合させることによって句境界を自動検出する.しかし,これらの観測F0パターンに依存するテンプレートでは,その形状の多様性に起因して検出率の向上に伴う挿入誤りの増加が問題となった.そこで本論文ではF0パターンの生成モデルという枠組みを与えてテンプレートの学習法および整合法を設計し,句境界検出精度の向上を図った.ATR連続音声データベースの男性話者(MYI)を用いた実験では,句境界検出率70%を基準とした場合に従来40%あった句境界挿入誤り率を約20%に抑制した.