ソーシャルメディア分析のための検索APIとWikipediaを利用したサンプリング手法

大澤 昇平  松尾 豊  

誌名
電子情報通信学会論文誌 D   Vol.J100-D   No.10   pp.870-881
発行日: 2017/10/01
Online ISSN: 1881-0225
論文種別: 論文
専門分野: 人工知能,データマイニング
キーワード: 
辞書ベースサンプリング,  Facebook,  Wikipedia,  推定Jaccard係数,  

本文: PDF(679.9KB)
>>論文を購入


あらまし: 
FacebookやTwitterなどのソーシャルメディアを対象にした分析研究では,分析対象となるエンティティの属性情報を収集するために,ソーシャルメディアの提供するAPI (application programming interface)に対するサンプリングが行われることがある.APIの中でも,検索APIに対するサンプリングはこれまで事例が少なく,効率的なサンプリング手法については明らかになっていない.本論文では,Wikipediaから得られるオントロジーを用いることで,検索APIを利用したサンプリングの効率を高めることができることを示す.具体的に,オントロジーから複数の辞書を生成し,収集したいトピックに合わせて適応的に用いる辞書を変える手法を提案する.また,辞書の評価指標として推定Jaccard指標を提案する.実験では,提案手法がFacebookから25.8%にあたる1800万件のエンティティをサンプリングでき,推定Jaccard係数を用いた手法が既存手法よりも効率が高いことを報告する.