かな・漢字文字列の連鎖統計による言語モデル

伊藤 彰則  好田 正紀  

誌名
電子情報通信学会論文誌 D   Vol.J79-D2   No.12   pp.2062-2069
発行日: 1996/12/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 特集論文 (音声言語によるコミュニケーションシステムの実現に向けて(音声認識,合成,対話処理,システム構築の諸問題)論文特集)
専門分野: 音声認識用言語モデル,認識後処理
キーワード: 
統計的言語モデル,  N-gram,  形態素解析,  

本文: PDF(663.6KB)>>
論文を購入




あらまし: 
日本語連続音声認識のための新しい言語モデル作成法について述べる.英語のコーパスは単語ごとに分かち書きされているために,単語単位のN-gramが容易に作成できる.これに対して,日本語のコーパスは漢字かな混じり文で記述されているために,事前に形態素解析を行って形態素単位のN-gramを作成するか,あるいは文字単位のN-gramを使う方法が提案されていた.本論文では,これらの手法に対して「かな・漢字文字列によるN-gram」を提案する.この手法は,学習テキストから統計的に決めた単位でテキストを分割し,そのN-gramを求めるという手法である.この手法を用いれば,事前に形態素解析を行うことなくN-gramを作成することができる.テキスト分割の手法についてさまざまな方法を比較した結果,学習テキスト中の出現頻度によって文字列を選択する方法が最も良い性能を与えた.また,学習テキストと評価テキストを変えた実験を行った結果,いずれの条件でも従来法を超える性能を得ることができた.