静的・動的パラメータを用いた英語連続音声の音素セグメンテーションシステム

古市 千枝子  相澤 桂  今井 聖  

誌名
電子情報通信学会論文誌 A   Vol.J78-A   No.3   pp.295-304
発行日: 1995/03/25
Online ISSN: 
DOI: 
Print ISSN: 0913-5707
論文種別: 論文
専門分野: 音声
キーワード: 
英語音素セグメンテーションシステム,  英語音素群ラベリング,  動的セグメンテーションパラメータ,  英語連続音声認識,  

本文: PDF(734KB)>>
論文を購入




あらまし: 
英語連続音声認識の前処理として実用になるような音素セグメンテーションシステムを構築し有効性を確かめた.英語連続音声には発声があいまいなシュワー(schwa)と呼ばれる弱声の母音が多数存在するために,これまで安定して音素境界を検出するのが困難とされ,認識の前処理として実用になるようなセグメンテーションシステムの具体化の提案はほとんど見られなかった.提案法では,まず音声信号から対数スペクトルの不偏推定法によってメルケプストラムを抽出する.これは微細周波数構造に影響されにくい安定した方法であることが知られている.次に,このメルケプストラムから,擬似微分フィルタを利用してシュワー性の音素の境界を検出することができるような特性をもつ動的なセグメンテーションパラメータを求め,静的なパラメータを併用して階層的な形で音素単位のセグメンテーションを行う.提案システムは話者に依存した複雑な境界検出規則を使用せずに,声質や発声法の異なる話者に共通な音響音韻知識のみを利用して,多様な音素環境を含む英語連続音声を音素単位に時間区分化する.英語を母国語とする男女各1名の話者によって発声された350秒の音素バランスした英語連続音声による提案システムの評価実験では,総音素数3,024個に対して音素境界の検出率97.1%,境界脱落率2.9%,境界付加率24.2%という結果を得た.