新聞記事データベースを用いた大語い連続音声認識

松岡 達雄
大附 克年
森 岳至
古井 貞煕
白井 克彦

誌名
電子情報通信学会論文誌 D   Vol.J79-D2    No.12    pp.2125-2131
発行日: 1996/12/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 特集論文 (音声言語によるコミュニケーションシステムの実現に向けて(音声認識,合成,対話処理,システム構築の諸問題)論文特集)
専門分野: 音声認識の高速化,大語い化
キーワード: 
大語い連続音声認識,  音声データベース,  言語モデル,  N-gram,  新聞記事,  

本文: PDF(503.4KB)>>
論文を購入



あらまし: 
近年,大語い連続音声認識の研究がアメリカ英語,イギリス英語,フランス語,ドイツ語,イタリア語などを対象に新聞記事を用いて盛んに行われている.しかしながら,日本語を対象とした,これに類する研究については報告がない.これは,主に,日本語が単語間にスペースなどのデリミタをおくことなく書かれるため,大語い連続音声認識において重要な役割を果たす単語N-gramなどの言語モデルの導入が容易でないためと考えられる.我々は,日本語新聞記事を対象として大語い連続音声認識の研究を進めている.単語N-gramを言語モデルとして用いるため,テキストを形態素解析することにより形態系(単語)にセグメンテーションした.形態素を単語と定義し,約5年分の新聞記事を用いて単語N-gram言語モデルを推定した.認識システムを評価するため,音声データベースを設計し,54名の話者の各100文ずつの音声データを収録した.この音声データベースの最初の10名の音声を用いて大語い連続音声認識の実験を行った.7kの語いサイズに対してno-grammar言語モデル,音素文脈独立音響モデルを用いた場合には単語誤り率が82.8%であった.単語bigram言語モデルと音素文脈依存音響モデルを用いることにより単語誤り率が20.0%に改善された.