音声シフト:音高の意図的な変化を利用した音声入力インタフェース

尾本 幸宏  後藤 真孝  伊藤 克亘  小林 哲則  

誌名
電子情報通信学会論文誌 D   Vol.J88-D2   No.3   pp.469-479
発行日: 2005/03/01
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 音声,聴覚
キーワード: 
音声インタフェース,  音声シフト,  音声認識,  音高,  非言語情報,  

本文: PDF(1.2MB)>>
論文を購入




あらまし: 
本論文では,非言語情報の一つである音高を利用した,「音声シフト」という新たな音声入力インタフェース機能を提案する.従来の音声認識システムが主に言語情報だけを利用してきたのに対し,我々は非言語情報を積極的に活用することによって,音声のもつ潜在能力を引き出した使いやすいインタフェースを構築することを目指している.音声シフトでは,普通に発声した発話と故意に高く発声した発話を異なる入力モードに割り当てることで,音声のみでモード指定と情報入力とを同時に行うことを可能にする.例えば,音声ディクテーションにおいて,「改行」と普通に発声するとその文字が入力され(文字入力モード),それを高く発声すると行末が改行される(コマンドモード)機能が実現できる.こうした機能を実現するために,本研究では,故意に高い発声を識別する際に必要となる話者ごとの音高の基準を,有声休止区間の音高を用いて推定する手法も提案する.実際に,音声テキストエディタに応用し,理工系男性20人の被験者による評価実験をしたところ,音声シフトが使いやすく,効果的な入力方法であることが分かった.