双方向リカレントニューラルネットワークを用いた音素境界推定とその応用

深田 俊明  マイク シュースター  匂坂 芳典  

誌名
電子情報通信学会論文誌 D   Vol.J81-D2   No.7   pp.1481-1490
発行日: 1998/07/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音素境界,  リカレントニューラルネットワーク,  HMM,  セグメントモデル,  音声認識,  

本文: PDF(678.4KB)>>
論文を購入




あらまし: 
リカレントニューラルネットワークを用いて,音素などのセグメント境界を推定する方法について述べる.音素境界の正確な推定は,音声認識における音響モデル作成や大量データベースを用いた音声合成のための自動セグメンテーション,音声認識のための前処理などに対して重要な技術である.音素境界推定のために双方向リカレントニューラルネットワーク(bidirectional recurrent neural network; BRNN)を用いており,音素境界推定実験の結果から,隠れマルコフモデル(hidden Markov model; HMM)や多層パーセプトロン(multi-layer perceptron; MLP)に基づく方法よりも高い性能が得られた.更に,BRNNから得られる音素境界推定結果を音声認識システムへ適用し,(1)音素境界候補の出力値をHMMに基づく認識系に統合することにより認識性能,および計算時間が改善されること,(2)セグメントモデルに基づく認識系の前処理として利用することにより計算量を大幅に削減できることを示す.