誤認識時の言い直し発話における発話スタイルの変動に頑健な音響モデル構築法

奥田 浩三  松井 知子  中村 哲  

誌名
電子情報通信学会論文誌 D   Vol.J86-D2   No.1   pp.42-51
発行日: 2003/01/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声認識,  音響モデル,  言い直し発話,  音節強調,  

本文: PDF(659.6KB)>>
論文を購入




あらまし: 
現行の音声認識システムは100%認識することは難しく,システム利用者は誤認識発生時に言い直しを余儀なくされる.しかしながら,誤認識時の言い直し発話においては利用者は異なる発話様式で発話することが多く,かえって認識性能が劣化するという問題が生じており,誤認識時の言い直し発話に対する頑健性が強く求められている.誤認識時の言い直し発話においては,各音節を強調した発声(音節強調発声)の出現頻度が増加する.本論文では,誤認識時の言い直し発話における音節強調発声に対して頑健な音響モデルの構築方法について提案する.提案手法は,音節強調発声の特徴である,音節間の音響的特徴の変形と,音節間に現れる無音に近い特徴をモデル化するため,先行音素環境依存biphone母音モデルと,後続音素環境が無音のtriphone母音モデルを既存のtriphone音響モデルとマルチパス化するものである.デコードの際,ゆう度の最も高くなる母音モデルが選択されるため,音響モデルの切換や認識辞書の拡張を行うことなく,音節強調発声に対して認識性能を改善することが可能となる.評価実験の結果,通常の発話に対して認識性能を劣化することなく,音節強調発声に対して認識性能が改善するとともに,話者適応と併用した場合に更に効果が得られることを確認した.