個人差の小さい音素類似度ベクトルを用いた不特定話者用音声認識法

二矢田 勝行  星見 昌克  山田 麻紀  

誌名
電子情報通信学会論文誌 A   Vol.J77-A   No.2   pp.135-142
発行日: 1994/02/25
Online ISSN: 
DOI: 
Print ISSN: 0913-5707
論文種別: 特集論文 (不特定話者音声認識論文特集)
専門分野: 音響モデル
キーワード: 
音声認識,  不特定話者,  類似度ベクトル,  音素標準パターン,  

本文: PDF(584.5KB)>>
論文を購入




あらまし: 
本論文では,少数話者の音声データから作成した単語標準パターンを用いて,不特定話者の単語音声を認識する方法を述べる.音声認識にはケプストラム係数やスペクトルの帯域パワーなど,周波数スペクトルに対応したパラメータが一般的に用いられている.これらは個人差が大きいため,マルチテンプレート法や統計的分布を用いた距離尺度を適用することによって,不特定話者に対処している.このため,標準パターン作成には,多くの人が発声した良質のデータを必要とする.一方,入力と各音素標準パターンとの照合によって求めた類似度ベクトルは,LPCケプストラム係数に比べると,大幅に個人差が小さいパラメータである.本論文では,類似度ベクトルをパラメータとし,相関余弦を評価尺度とする不特定話者用の認識法を提案する.この方法では,わずか4名程度で作成した単語標準パターンによって,不特定話者に対して良好な認識率が得られる.10名分の学習データで作成した単語標準パターンを用いて,212単語セットを評価したときの認識率は約98%である.