観測頻度に基づくゆう度比の保守的な直接推定

菊地 真人  川上 賢十  吉田 光男  梅村 恭司  

誌名
電子情報通信学会論文誌 D   Vol.J102-D   No.4   pp.289-301
発行日: 2019/04/01
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2018DEP0007
論文種別: 特集論文 (データ工学と情報マネジメント論文特集)
専門分野: テキストマイニング
キーワード: 
ゆう度比,  uLSIF,  正則化,  ブートストラップ法,  保守的な推定,  

本文: PDF(845.9KB)>>
論文を購入




あらまし: 
データを確率的に取り扱う問題において,統計的尺度の推定は手法の構成やデータ分析の基盤的役割を担う.本論文では統計的尺度の一つであるゆう度比を,離散的な標本空間から得た観測頻度をもとに推定する問題を扱う.素朴な推定方法は,ゆう度比の定義に従い,ゆう度比を構成する二つの確率分布を最ゆう推定して,その比を取ることである.しかし,低頻度からゆう度比を求めるとき,この方法は推定量を不当に高く見積もってしまう場合がある.そこで,ゆう度比の直接推定法uLSIFを応用し,ゆう度比を低めに(保守的に)推定する方法を提案する.提案手法は,最ゆう推定によって求めたゆう度比を正則化パラメータによって調整する枠組みである.実験では提案手法の振る舞いを明らかにし,その有効性を示した.更に,自然言語処理におけるブートストラップ法を利用した実験も行い,提案手法の実用性も示した.