ニューラル単語ベクトルのクロスモーダル転移による画像検索の改善

入江 豪  浅見 太一  田良島 周平  新井 啓之  谷口 行信  

誌名
電子情報通信学会論文誌 D   Vol.J98-D   No.12   pp.1451-1463
発行日: 2015/12/01
早期公開日: 2015/09/03
Online ISSN: 1881-0225
DOI: 10.14923/transinfj.2015JDP7039
論文種別: 論文
専門分野: 画像認識,コンピュータビジョン
キーワード: 
クロスモーダル転移,  画像検索,  Skip-gram,  

本文: PDF(596.1KB)>>
論文を購入




あらまし: 
ニューラルネットワーク(NN)によるメディア表現学習の発展が目覚ましい.自然言語処理分野においても,Skip-gram (SG)と呼ばれるNNモデルが注目を集めており,従来法に比べ意味類推性能の高い単語ベクトルが得られることが報告されている.本論文では,SGによる画像検索精度の改善について議論する.具体的には,クロスモーダル転移(CMT),すなわち,単語ベクトルを介して文書のもつ情報を画像特徴量に転移するフレームワークに則り,単語ベクトルの学習にSGを用いた場合の精度改善について検討する.まず,SG単語ベクトルを介したCMTによって,従来法により得られる単語ベクトルを用いた場合よりも高い画像検索精度が得られることを示す.続いて,更にその改善効果を高めることを考え,新たなCMT法として『線形性保存転移法(LPT)』を提案する.LPTは,SG単語ベクトルの顕著な意味類推性能が現れる線形代数的特性に着想を得た方法であり,画像・文書間の関係に加え,SG単語ベクトル空間に内包される線形部分空間上の幾何構造も同時に保存するような転移を行うことで,より効果的なCMTの実現を狙うものである.三つのベンチマークデータを用いた実験によって,実際に精度改善が可能であることを示す.