確率モデルによる音声認識のための話者適応化技術

篠田 浩一  

誌名
電子情報通信学会論文誌 D   Vol.J87-D2   No.2   pp.371-386
発行日: 2004/02/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: サーベイ論文
専門分野: 
キーワード: 
音声認識,  話者適応化,  隠れマルコフモデル,  

本文: PDF(519.1KB)>>
論文を購入




あらまし: 
話者適応化は,音声認識において使用者の少量の発声を用いて認識システムをその使用者の音響的特徴に適応させる技術である.近年,連続密度出力分布隠れマルコフモデルを用いた不特定話者認識システムの実用化が進展しているが,その性能は使用者の発声を登録した特定話者認識の認識性能にはいまだ及んでいない.できるだけ少量の発声で特定話者並みの性能を上げる話者適応化技術の確立が期待されている.本論文では,これまで研究されてきた話者適応化技術を,三つの主要技術,最大事後確率(Maximum A Posteriori; MAP)推定法,最ゆう回帰(Maximum Likelihood Linear Regression; MLLR)法,固有声(Eigenvoice)法,を軸に概観した上で,それらをつなぐ横糸としての構造的アプローチについて論じる.