話題と文型の違いを同時に考慮した言語モデル適応

山本 博史  匂坂 芳典  

誌名
電子情報通信学会論文誌 D   Vol.J85-D2   No.8   pp.1284-1290
発行日: 2002/08/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
N-gram,  タスク適応,  クラスN-gram,  単語クラスタリング,  

本文: PDF(131.2KB)>>
論文を購入




あらまし: 
本論文では対話における話題の違いとともに,話者の立場の違いに起因する文型の違いをも適応対象として考慮した言語モデルの適応方法を提案する.適応モデルは二つの異なった適応元データから作られ,そのうち一つは話題のみが一致した適応元データであり,もう一つは文型のみが一致したデータである.これら二つの適応元データに対し,新たに提案された単語クラスタリングの手法を適用することによって,話題依存及び文型依存の単語が各々抽出される.この単語クラスタリングにおいては,二つの適応元データそれぞれにおける単語の接続性は別の特性とみなされ,その二つの特性を同時に考慮してクラスタリングすることによって,話題依存,文型依存及び話題文型非依存の単語は別々の単語クラスに分類されることになる.続いて,これらの単語クラスに基づくクラスN-gramに対し,話題,文型ともに一致した少量の適応先データを用いた適応が行われる.適応においては,クラスN-gramをベースとする適応であるため,従来法である単語N-gramをベースとする適応では適応がうまく行われない適応先データにおける未観測データに対しても適応効果が見込め,少量の適応先データに対する効果的な適応を行うことができる.実験においても,提案法は従来の単語N-gramをベースとし,かつ,一つの適応要素しか取り扱わない従来法と比べ,パープレキシティで14.8%,連続単語認識における誤認識率で8.7%低い値を示し,また,クラスN-gramをベースとした場合に比べてもパープレキシティで4.5%,連続単語認識における誤認識率で3.5%低い値を示し,有効性が確認できた.