複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定

宇津呂 武仁  西崎 博光  小玉 康広  中川 聖一  

誌名
電子情報通信学会論文誌 D   Vol.J86-D2   No.7   pp.974-987
発行日: 2003/07/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
大語彙連続音声認識,  信頼度尺度,  複数モデル混合,  音響モデル,  認識誤り検出,  

本文: PDF(1.4MB)>>
論文を購入




あらまし: 
本論文では,音声認識結果の正解部分と誤り部分を分離することを目的として,複数の音声認識システムによる認識結果のうち複数のシステムの間で共通となっている部分を用いる方法を提案し,その有効性を示す.具体的には,大語彙日本語連続音声認識において,デコーダ,音響モデル,言語モデル,音響/言語スコアの重み,挿入ペナルティなど,様々な設定が少しずつ異なっている二つの大語彙連続音声認識モデルによる認識結果について,その共通部分が正解となっている割合を測定することにより,二つの大語彙連続音声認識モデルによる認識結果の共通部分の信頼度を評価する.新聞読上げ音声及びニュース音声を対象として,2種類のデコーダを用いて行った評価実験の結果では,デコーダ及び音響モデルが異なる二つの大語彙連続音声認識モデルについて,認識結果の共通部分の信頼度を評価したところ,非常に高い性能が達成された.また,同一のデコーダを用いた場合にも,音響モデルの特徴の違いと信頼度との相関を網羅的に評価することにより,デコーダが異なる場合の性能をやや下回るものの,ほぼそれに匹敵する性能を達成した.特に,混合連続分布HMMに基づく音響モデルの場合では,無音モデルの有無,音響モデルの種類(トライフォンや音節モデルなど)の違いといった特徴が高い信頼度に寄与していることがわかった.