単語意味ベクトル辞書を用いたTwitterからの評判情報抽出

芥子 育雄  鈴木 優  吉野 幸一郎  グラム ニュービッグ  大原 一人  向井 理朗  中村 哲  

誌名
電子情報通信学会論文誌 D   Vol.J100-D   No.4   pp.530-543
発行日: 2017/04/01
Online ISSN: 1881-0225
論文種別: 特集論文 (データ工学と情報マネジメント論文特集)
専門分野: テキストマイニング
キーワード: 
極性分析,  Twitter,  word2vec,  パラグラフベクトル,  意味ベクトル,  

本文: PDF(1.1MB)
>>論文を購入


あらまし: 
LeとMikolovは,文書の分散表現を単語と同様にニューラルネットワークで学習できるパラグラフベクトルのモデルを提案し,極性分析ベンチマークを用いて最高水準の分類精度を示した.パラグラフベクトルを用いたツイートの極性分析における実用上の課題は,単語のスパース性を解消するパラグラフベクトルの構築のために大規模文書が必要なことである.本研究では,Twitterの文に対して評判情報抽出を適用する際,その出現単語のスパース性に由来する性能低下を解決するため,人手により構築された単語意味ベクトルを導入する.意味ベクトルとして,各次元が266種類の特徴単語に対応し,約2万語に付与されている単語意味ベクトル辞書を使用する.この辞書を用いて単語拡張したツイートをパラグラフベクトルのモデルで学習するという,単語意味ベクトルとパラグラフベクトルの統合化手法を提案する.これにより,単語がスパースでも特定分野の文脈情報を学習できることが期待される.この評価のため,クラウドソーシングを利用してスマートフォン製品ブランドに関する極性分析ベンチマークを作成した.評価実験の結果,約1万2千ツイートから構成される特定のスマートフォン製品ブランドのベンチマークにおいて,提案手法は,ポジティブ,ニュートラル,ネガティブの3クラス分類におけるポジティブ予測とネガティブ予測のマクロ平均F値71.9を示した.提案手法は従来手法であるパラグラフベクトルによるマクロ平均F値を3.2ポイント上回った.