話速変換を利用する会話における映像同期手法とその効果

斎藤 博人  小山内 一樹  徳永 弘子  武川 直樹  

誌名
電子情報通信学会論文誌 A   Vol.J102-A   No.2   pp.59-67
発行日: 2019/02/01
Online ISSN: 1881-0195
DOI: 
論文種別: 特集論文 (ヒューマンコミュニケーション特集〜ヒューマンコミュニケーションと価値創造〜)
専門分野: ヒューマンコミュニケーション基礎
キーワード: 
話速変換,  音声映像同期,  次話者指定,  3人会話,  

本文: PDF(1.6MB)
>>論文を購入


あらまし: 
話速変換(SRC: speech rate conversion)とは,音声の高さを保ったまま速度を変える技術であり,聞き取りを支援する聴取補助技術の一つとして利用されている.これまでの,話速変換を用いた会話システム[3]では,音声はゆっくりとした発話に変換されるが,映像はリアルタイムで再生していた.そのため,話し手の視線行動等の発話に付随する非言語行動が音声と同期しなくなり,聞き手が受容する非言語行動などの情報が適切に得られず,話者の順番交替がしにくくなることが指摘されていた.本研究は,ゆっくりとした発話に変換された音声を聴取するユーザに対して,映像も音声と同期する,ゆっくりとした映像に加工し,リップシンクが取れる会話インタフェースの設計とその評価をする.会話実験では,話速変換によりゆっくりになった音声に映像を同期する3人会話の会話システムを構築し,映像同期・非同期の条件間で,話し手に宛先指定された聞き手の反応潜時(聞き手が,話し手の発話の終了時点を聴取してから,次話者として発話を開始するまでの時間)を計測し比較をした.その結果,映像同期の条件の方が非同期条件よりも反応潜時が短くなり,映像と音声を同期してゆっくりと再生する聴取環境が,ユーザの次発話のしやすさに寄与することを示す.