話し言葉音声認識のための汎用的な統計的発音変動モデル

秋田 祐哉  河原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J88-D2   No.9   pp.1780-1789
発行日: 2005/09/01
Online ISSN: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声認識,  話し言葉,  発音変動,  発音辞書,  日本語話し言葉コーパス,  

本文: PDF(626KB)
>>論文を購入


あらまし: 
話し言葉音声の認識において,発音変動のモデル化は認識性能に深くかかわる課題である.通常,音声認識に用いる発音辞書は形態素解析器が出力する標準的な読みに基づいて生成されるが,これでは話し言葉に多く含まれる発音変動をカバーできない.本研究では,まず「日本語話し言葉コーパス」(CSJ)を用いて発音変動のパターンを汎用的な音素系列のレベルで統計的に学習した.コーパスから自動的に獲得された音素列の変動パターンは265種類であり,音韻論的に妥当なものに加えて人手による規則化が困難なものを頻度統計と併せて抽出することができた.これらのパターンに対して,バックオフ手法により可変長の音素文脈を扱える確率付き音素書換え規則を構築する.これらの規則を適用することで,任意の語いに対して標準的な読み(baseform)から話し言葉特有の変動を含んだ発音(surface form)を生起確率とともに生成することができる.本手法をCSJとは異なるドメインのための発音辞書に適用したところ,エントリ数が21%増加した.更に,この発音辞書を用いた音声認識により有意な単語誤り率の改善を得ることができた.