統計的言語モデル変換を用いた音響モデルの準教師付き学習

三村 正人  秋田 祐哉  河原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J94-D   No.2   pp.460-468
発行日: 2011/02/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声認識,  話し言葉,  音響モデル,  準教師付き学習,  

本文: PDF(458.1KB)
>>論文を購入


あらまし: 
話し言葉の音声認識のための音響モデルの学習には大規模なコーパスが必要であるが,話し言葉の忠実な書き起こしを用意するのは多大なコストを要する.これに対して,会議録や字幕などの忠実な書き起こしでないが,容易に入手できるテキストを活用する準教師付き学習を考える.本論文で提案する手法では,会議録のテキストデータに統計的話し言葉変換を適用して,会議の詳細な単位(ターン)ごとに制約の強い言語モデルを作成し,この言語モデルを用いて音声認識を行うことで,音響モデル学習のためのラベルを作成する.国会審議を対象とした音声認識評価実験により,従来手法よりも高い精度のラベルを作成できること,及びこのラベルを用いて人手のラベルを用いた場合と同等の精度のモデルを学習できることが示された.