ニュース音声認識のための(n 4)-gramを併用する言語モデル

加藤 直人  浦谷 則好  江原 暉将  安藤 彰男  

誌名
電子情報通信学会論文誌 D   Vol.J85-D2   No.6   pp.967-975
発行日: 2002/06/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
言語モデル,  音声認識,  n-gram,  タスク適応,  テレビニュース,  パープレキシティ,  

本文: PDF(507.3KB)>>
論文を購入




あらまし: 
本論文では,アナウンス原稿の特徴を利用した,ニュース音声認識のための言語モデルについて述べる.ニュースでは,アナウンサーがスタジオで原稿(アナウンス原稿)を読む部分の割合が大きい.アナウンス原稿は記者がワープロで書いた原稿(記者原稿)を手書きで修正することによって作成されるので,アナウンス原稿には直近の記者原稿と一致する単語列が多く含まれるという特徴がある.提案する言語モデルでは,このような特徴を(n 4)-gramでモデル化することによって直近の記者原稿への適応化を行いつつ,一般的な言語制約は2,3-gramでモデル化することによって対応している. (n 4)-gramをすべて単純に記憶してしまうと単語数の増加とともに大きなデータ量となってしまうが,提案する言語モデルでは単語出現位置辞書という概念を導入し,手続き的知識として記者原稿そのものを記憶することによりデータ量を抑えている.一方,2,3-gram によるモデルにはニュースの時事性を反映させるために,数年分の記者原稿を直近の記者原稿に適応化することを行うが,線形混合比を小さくし過適応を避けている.本言語モデルを放送ニュースに適用し,パープレキシティ,音声認識による評価実験を行ったところ,良い結果が得られた.