日本語文章の難易度判定におけるテキスト統計量の有効性

山村 毅  

誌名
電子情報通信学会論文誌 D   Vol.J96-D   No.8   pp.1952-1955
発行日: 2013/08/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: レター
専門分野: 
キーワード: 
日本語文章,  難易度,  テキスト統計量,  有効性,  

本文: PDF(210.9KB)
>>論文を購入


あらまし: 
日本語文章を対象にした難易度判定における,漢字の割合や平均文節数などの統計量(以下テキスト統計量)の有効性を検証した.小学校~高校を五つの学年ランク(難易度)に分け,43種類のテキスト統計量の1~8個の全ての組合せそれぞれに対し,それを特徴量として用いた最近傍法で難易度判定を行い,分類正解率を評価した.テキスト統計量をうまく選べば最大で80%の分類正解率を実現できることや,漢字の種類数を単語の種類数で除した値が難易度判定に特に有効であることが分かった.