画像情報を含むblog記事検索システムの開発

井原 伸介  林 貴宏  尾内 理紀夫  

誌名
電子情報通信学会論文誌 D   Vol.J89-D   No.6   pp.1236-1247
発行日: 2006/06/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 論文
専門分野: コンテンツ技術,Web情報システム
キーワード: 
blog,  画像検索エンジン,  情報検索,  クローリング,  

本文: PDF(663.3KB)>>
論文を購入




あらまし: 
blogに投稿される画像情報に注目し,画像情報を含むblog記事を収集・解析し,それらを検索するシステム「もぶろげっと」を構築した.また,メディアを通じて一般公開し,ユーザの検索履歴の分析を行った.本システムにおけるblogの収集は,オープンソースのクローラであるJSpiderを改良し,blog収集に特化したクローラを使用している.収集したblogのHTMLとRSSを解析し,本文,画像,画像に対するメタデータを抽出している.抽出したこれらのデータを,オープンソースのインデクサであるNamazuを利用することで全文検索可能にしている.また,検索におけるユーザインタフェースはWebブラウザが利用可能である.一般公開してからこれまでに検索で使用された回数が多い検索クエリ上位30個を対象として,画像検索機能の適合率を測定した結果,平均52.5%となった.半年間のユーザ検索履歴の分析により,blog内の画像を検索目的としたリクエスト数が全体の3割を占めること,出現回数上位100件のクエリの57%はアダルトなクエリであることを確認した.また,寄せられたユーザの意見から,検索結果画面で表示されるサムネイル画像がblog記事内容に対する直感的な理解を助けることを確認した.