音素セグメンテーションに基づく統計的音素セグメントモデル による音声認識

古市 千枝子  相澤 桂  井上 和彦  

誌名
電子情報通信学会論文誌 D   Vol.J82-D2   No.7   pp.1111-1119
発行日: 1999/07/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
セグメントモデル,  混合分布,  音素セグメンテーション,  音声認識,  

本文: PDF(382.4KB)>>
論文を購入




あらまし: 
自動抽出した音素セグメントから求めた音素特徴量を学習サンプルとして トレーニングした新しい統計的音素セグメントモデルによる音声認識について述べる. 本提案のシステムでは,認識の前処理としてセグメンテーションによって音素境界を検出した後, 統計的音素セグメントモデルで音素識別を行いスコア付き音素セグメントラティスを作成し, 辞書項目との記号列マッチングにより音声認識を行う. 使用するセグメンテーションシステムは高精度の音素境界の推定が可能なことから, 余分なパラメータを除去して音素分離に有効な特徴パラメータに着目し, 連続音声中の音素の認識問題を識別問題に帰着することができる. したがって,比較的少量の学習データをもとにして不特定話者対応のモデルの作成が可能である. 10名分の音素バランス単語セット4,920単語から抽出した学習サンプルで トレーニングした統計的音素セグメントモデルを用いて, 非学習話者63名による未学習語彙 6,708単語に対する認識実験の結果, 単語辞書のサイズ212語の場合,全話者平均で92.6%の認識率を得た.