音素セグメントの確率的モデルに基づくワードスポッティング

岡田 美智男
好田 正紀

誌名
電子情報通信学会論文誌 D   Vol.J73-D2    No.10    pp.1609-1618
発行日: 1990/10/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声処理
キーワード: 


本文: PDF(941.4KB)>>
論文を購入



あらまし: 
連続音声認識において重要な要素技術の一つであるワードスポッティング法について検討した.単語より小さい単位を用いて単語標準パターンを自動的に生成できれば,大語いのスポッティングが容易となる.また,連続音声中の音素の変形に対しても柔軟に対処できる.本論文で提案するワードスポッティング法は,次の三つの特徴をもつ.(1)音声の局所的なスペクトル系列を「イベント」と呼び,音素セグメントをイベントの系列で記述する.スペクトルの局所的な変動はこのイベントを確率的なモデルで表現することにより吸収し,音素セグメントの時間的な構造の変動は,イベント系列上での非線形伸縮により吸収する.(2)学習用連続音声中の音素セグメントの境界を更新しながら,音素セグメントを表現するイベント系列を自動的に学習する.(3)正書法表記の音素記号系列から,音素環境に適した音素セグメントを連結して,任意の単語標準パターンや文節標準パターンを自動的に生成する.本論文ではこれらのアルゴリズムを示し,音素認識,ワードスポッティング,文節スポッティングの実験により,本アルゴリズムの有効性を明らかにした.