コンテンツ活用のための報道番組自動書き起こしシステム

小林 彰夫  奥 貴裕  本間 真一  佐藤 庄衛  今井 亨  
(システム開発論文)

誌名
電子情報通信学会論文誌 D   Vol.J93-D   No.10   pp.2085-2095
発行日: 2010/10/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 特集論文 (システム開発論文特集)
専門分野: 音声システム
キーワード: 
リアルタイム音声認識,  話者識別,  言語モデル適応化,  キーワード検索,  

本文: PDF(648.8KB)>>
論文を購入




あらまし: 
本論文では,放送コンテンツ活用のための報道番組自動書き起こしシステムについて述べる.本システムは,放送局の番組制作者による報道番組の内容の閲覧・検索をはじめ,音声認識の学習データ収集や番組のメタデータ制作を目的として,番組の音声を随時認識して,映像・音声とともに認識結果を蓄積するものである.本システムでは,発話区間の検出を行いながらリアルタイムで音声認識結果を蓄積し,これと並行して話者識別により発話に話者名を付与する.最新の報道番組に出現する単語に対応するため,音声認識の統計的言語モデルは,ウェブ上のニューステキストを取得して随時更新される.また,認識結果として得られたラティスから索引を生成して,キーワード検索を可能としている.蓄積された報道番組の閲覧・検索の性能を確認するために,本システムの評価を行ったところ,原稿の読み上げを含む報道番組の単語誤り率は9.2%,キーワード検索のF値は約95%であった.一方,システムから得られた音声認識結果を修正せずに用いて言語モデルを適応化し,スポーツ等のニュース番組を評価したところ,単語誤り削減率は最大5.7%となり,学習データ収集の効果が確認された.