lチップDSPで作動する実用的な不特定話者音声認識法

星見 昌克  山田 麻紀  二矢田 勝行  

誌名
電子情報通信学会論文誌 D   Vol.J79-D2   No.12   pp.2096-2103
発行日: 1996/12/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 特集論文 (音声言語によるコミュニケーションシステムの実現に向けて(音声認識,合成,対話処理,システム構築の諸問題)論文特集)
専門分野: 音声認識の高速化,大語い化
キーワード: 
音声認識,  類似度ベクトル,  小型ハードウェア,  ワードスポッティング,  

本文: PDF(539.2KB)>>
論文を購入




あらまし: 
近年,小型の携帯情報機器等の普及に伴い,入力手段としてlチップDSP程度で処理できる不特定話者用音声認識技術の開発が急務となっている.今回我々は,既に提案した音素類似度ベクトル法[1]に基づき,計算量・メモリ量の削減,ワードスポッティング法,耐ノイズ性について検討し,100単語の語い数をもち,lチップDSPで処理できる実用向けの不特定話者単語音声認識技術を開発した.音素類似度ベクトル法は,音素類似度値の相対関係を利用しているため,標準パターンの圧縮やパラメータのビット数の削減に極めて有利であることが明らかになり,DSPの内蔵メモリだけですべての認識処理を行うことが可能となった.実環境下でも高い認識性能を得るために,事後確率値の積を用いるワードスポッティング法の検討,および騒音の種類によって音素標準パターンを切り換える方法の検討を行った.これらの結果に基づいて,メモリ内蔵のlチップDSPで100単語が認識できるボードの開発を行った.この認識ボードを用いて,40単語を認識辞書として登録し男女各5名が発生したデータを評価した結果,騒音環境下でも95.3%の良好な認識性能を得ることができた.