大規模な日本語話し言葉データベースを用いた講演音声認識

南條 浩輝  加藤 一臣  李 晃伸  河原 達也  

誌名
電子情報通信学会論文誌 D   Vol.J86-D2   No.4   pp.450-459
発行日: 2003/04/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
話し言葉,  音声認識,  音響モデル,  言語モデル,  逐次デコーダ,  

本文: PDF(405.2KB)>>
論文を購入




あらまし: 
開放的融合研究「話し言葉工学」プロジェクトにおいて構築されている日本語話し言葉コーパスを用いて講演音声の認識を行った.話し言葉は書き言葉の読上げ音声と大きく性質が異なるため,それに合致したモデル化と認識手法の検討が必要となる.音響モデルについては発話スタイルとデータ量の影響を調べた.言語モデルについては,話し言葉コーパスのデータ量不足を補うために他のコーパスと混合する方法,特に混合重みの最適化手法を提案する.また認識に際して,事前の発話のセグメンテーションが容易でないため,ショートポーズの自動認識に基づいて区分化と認識結果の確定を行う逐次デコーディング方式を提案・実装した.10名の話者による講演音声の認識実験で提案手法の有効性を示し,平均66.2%の認識率を得た.