音声認識における仮名・漢字文字連鎖確率に基づく統計的言語モデルの利用

山田 智一  松永 昭一  川端 豪  鹿野 清宏  

誌名
電子情報通信学会論文誌 A   Vol.J77-A   No.2   pp.198-205
発行日: 1994/02/25
Online ISSN: 
DOI: 
Print ISSN: 0913-5707
論文種別: 特集論文 (不特定話者音声認識論文特集)
専門分野: 連続音声認識
キーワード: 
音声認識,  言語処理,  統計的言語モデル,  Dictation,  

本文: PDF(589.3KB)>>
論文を購入




あらまし: 
仮名・漢字の文字連鎖確率に基づく統計的言語モデルを利用した日本語Dictationシステムについて述べる.日本語の統計的言語モデルとして,仮名・漢字の文字連鎖確率(次に出現する文字の,既に出現した2文字による条件付き確率)に基づくモデルを利用した方が,従来の音韻や音節の連鎖確率に基づくモデルよりも有効であることを,パープレキシティ(情報論的な意味での平均分枝数)に基づいて検討する.更に,仮名・漢字連鎖のモデルを用いた日本語Dictationシステムを構築し,仮名・漢字連鎖確率のみによるモデルを利用した場合,のモデルと読みの辞書を用いて,出力された漢字仮名混じり系列に対する読みを考慮した場合,あらかじめ読みを考慮して作成した,仮名・漢字連鎖確率によるモデルを用いた場合について,パープレキシティとシステムの文字変換率(正解表記に用いられる文字を,出力文字系列がいくつ含んでいるか),文節変換率(出力文字系列がすべて正しく,かつその読みも正しいものの割合)で比較・検討する.国際会議の問合せに関するタスクにおいて,特定話者1名による,語いの仮定なしでの274文節の変換実験に対し,の場合に,文節変換率65.0%,文字変換率79.0%を達成した.