読点の用法的分類に基づく日本語テキストへの自動読点挿入

村田 匡輝  大野 誠寛  松原 茂樹  

誌名
電子情報通信学会論文誌 D   Vol.J95-D   No.9   pp.1783-1793
発行日: 2012/09/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 論文
専門分野: 自然言語処理
キーワード: 
読点,  文生成,  文分割,  係り受け構造,  節境界,  

本文: PDF(777.4KB)
>>論文を購入


あらまし: 
本論文では,統計的アプローチにより日本語テキストに読点を自動挿入する手法を提案する.読点の自動挿入は,音声筆記や機械翻訳などの文生成処理,また,日本語の非母語話者のための作文支援の要素技術として利用できる.日本語の読点にはいくつかの用法が存在し,その用法ごとに文中での挿入位置が異なる.本研究では,読点の用法を分類し,用法ごとの読点の出現傾向を分析することにより,読点挿入に用いる素性を決定した.各用法を特徴づける要素を素性として導入することにより,読点を精度よく挿入できる.本手法では,特定の形態素の存在や節境界の種類,また,文字の種類,読点間の文字列の長さなどを素性とする統計的手法によって読点の挿入位置を同定する.テキストコーパスを使用した読点挿入実験を行い,再現率で70.66%,適合率で84.65%を達成した.ベースライン手法と比較して高い性能を示しており,本手法の有効性を確認した.