リアルタイム字幕作成におけるスライド中の発話された数式抽出

川口 弘哲  竹内 義則  松本 哲也  工藤 博章  大西 昇  

誌名
電子情報通信学会論文誌 D   Vol.J97-D   No.5   pp.1035-1043
発行日: 2014/05/01
Online ISSN: 1881-0225
DOI: 
論文種別: 論文
専門分野: 福祉工学
キーワード: 
リアルタイム字幕,  数式抽出,  指示動作,  

本文: PDF(1022.4KB)>>
論文を購入




あらまし: 
聴覚障害者が聴講する大学等の講義において,情報保障として講師の発話をリアルタイムに入力して表示するリアルタイム字幕提示が行われている.数式を使った講義では,その入力がリアルタイム字幕提示の問題の一つである.本論文では,講師の発話した数式に対応するスライドの数式画像を自動的に抽出する手法を提案する.抽出した数式画像を入力者に提示することにより,数式を正しく入力することができる.この手法は,講師が発話した数式に対応するスライド中の数式を指示しているという特徴を利用している.音声認識技術を用いて数式の発話を抽出する.また,講義映像から取得した指示棒先端の軌跡を分析し,講師の指示動作を抽出する.最後に,数式の発話の抽出結果と指示動作の抽出結果を統合することで,発話に対応する数式画像を抽出する.抽出された数式画像は,字幕作成者に送られ,字幕作成の補助情報として提示される.実際に収録した講義音声・映像に対して,音声認識によって数式の発話を抽出し,その結果を用いて数式画像抽出処理を行った.その結果,86.2%の適合率で,講師が発話し支持棒で指示した71.1%の数式を抽出することができた.