部分距離空間上の索引を用いたDTW距離順の音声中の検索語検出法

大野 哲平  金子 泰輔  秋葉 友良  

誌名
電子情報通信学会論文誌 D   Vol.J97-D   No.3   pp.548-559
発行日: 2014/03/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 特集論文 (学生論文特集)
専門分野: 音声,聴覚
キーワード: 
音声中の検索語検出,  近似文字列照合,  部分距離空間上の索引付け,  動的時間伸縮,  

本文: PDF(1.6MB)>>
論文を購入




あらまし: 
音声中の検索語検出(Spoken Term Detection; STD)とは,ある特定の検索語が音声データ中のどこで発話されたかを特定するタスクであり,ウェブ上などに音声を含むマルチメディアコンテンツが大量に存在するようになった現在,活発な研究活動が行われている分野である.STDに対する手法の一つとして,部分距離空間上の索引付けに基づく方法が提案されている.この手法の大きな特長は,索引に含まれる距離情報に基づき,尤もらしい候補から順番に検索結果を高速に出力できることである.そのため,従来手法のように検索の際に,必ずしもしきい値を設定する必要はない.しかし,単純な実装では検索結果が厳密な累積距離順になっていない,また検索語音節列と発話候補音節列の距離計算の際を直線パスで対応付けるため認識誤り(脱落,挿入)に頑健でないという問題があった.本研究では,距離順計算の厳密化に加え,代替距離尺度と累積距離計算のDynamic Time Warping(DTW)化の二つの非直線検出のための拡張を行い,性能改善を図った.評価実験の結果,索引を用いないDTWと同一の検索性能を約3倍高速に達成し,わずかに距離順厳密性の制約を緩めた場合は約120倍高速な検索が可能なことが分かった.