音声に含まれる言語的情報を非言語的情報から音響的に分離して抽出する手法の提案―人間らしい音声情報処理の実現に向けた一検討―

峯松 信明  櫻庭 京子  西村 多寿子  喬 宇  朝川 智  鈴木 雅之  齋藤 大輔  

誌名
電子情報通信学会論文誌 D   Vol.J94-D   No.1   pp.12-26
発行日: 2011/01/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 招待論文 (ヒューマンコミュニケーション~人間中心の情報環境構築のための要素技術~論文特集)
専門分野: 
キーワード: 
音響モデリング,  情報分離,  音声模倣,  自閉症,  知覚の恒常性,  変換不変量,  音声の構造的表象,  

本文: FreePDF(1.3MB)


あらまし: 
近年の計算機性能の飛躍的な向上により,大規模語彙を対象とした音声認識は実用段階を迎えている.音声合成においても話者性や発話スタイルを制御できる合成方式など,種々の応用場面を念頭においた技術開発が行われている.その一方で,音声工学研究の目的を「人間に匹敵するような」音声言語情報処理能力の計算機実装と考えた場合,人間と機械との間には,今なお,大きな溝があることも指摘されている.本研究ではまず,現在の音声認識・音声合成相当の情報処理を行う人間が現に存在した場合,その人間の挙動は,音声言語の獲得に困難を示す重度自閉症者の挙動と類似するであろうことを指摘する.その上で,(定型発達を遂げた)人間らしい音声情報処理の実現に向けて,現在の音声技術に欠けている基礎技術は何であるのかを幅広い視点から考え,欠損技術の一つとして「音声に含まれる言語的情報を,非言語的情報から音響的に分離して抽出する技術」を主張する.と同時に,その実現に向けて一つの技術的提案を行い,いくつかの実験結果を述べる.