符号化音声認識のための合成音声を用いた不特定話者音響モデルの適応法

原 一眞  黒岩 眞吾  田中 康司  柘植 覚  任 福継  獅々堀 正幹  北 研二  

誌名
電子情報通信学会論文誌 D   Vol.J90-D   No.9   pp.2541-2549
発行日: 2007/09/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
符号化音声認識,  音声符号化,  HMM音声合成,  音響モデル適応,  

本文: PDF(383.4KB)>>
論文を購入




あらまし: 
現在,IP電話端末から音声認識システムを利用する場合,音声データ通信時における音声圧縮・伸張(符号化)の影響より固定電話と比較して音声認識精度が低下する問題がある.これを回避するため,符号化された多量の音声データを用いて音響モデルを再学習,及び適応する手法が提案されている.しかし,再学習や適応に必要となる多量の音声データを収集することは多大な労力と時間が必要となる.そこで本論文では,音声データの収集を必要としない音響モデル適応手法を提案する.本提案手法は,認識に用いる音響モデルから適応に必要な音声データを自己生成する手法である.本論文ではこの手法を実現するため,音響モデルの各分布より音素波形を合成し適応に用いる「合成音素波形による音響モデルの分布適応法」と連続音声を合成し適応に用いる「連続合成音声を用いた音響モデル適応法」を提案する.符号化方式G723.1を用いた音声認識実験結果より,連続合成音声を用いた音響モデル適応法は適応前の音響モデルの認識精度を改善することが分かった.これらの結果より,提案手法は適応データの収集を必要とせず,符号化音声を高精度に認識する手法として有効であるといえる.