多周期的更新アクセスに適した二次記憶管理技法―連続的Webクローリングへの適用―

田村 孝之  喜連川 優  

誌名
電子情報通信学会論文誌 D   Vol.J93-D   No.6   pp.805-815
発行日: 2010/06/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 特集論文 (情報爆発論文特集)
専門分野: ファイル編成
キーワード: 
連続的Webクローリング,  二次記憶編成,  シーケンシャルアクセス,  ランダムアクセス,  B-木,  

本文: PDF(542.1KB)
>>論文を購入


あらまし: 
本論文では大規模なデータベースの各レコードを独立周期で更新するアクセスパターンに適した新たな二次記憶編成方式を提案する.このようなアクセスパターンは,筆者らが取り組んでいる大規模Webアーカイブ構築のための連続的Webクローリングに特徴的なものである.連続的Webクローリングにおいては,Webページごとに更新頻度を推定し,アクセス間隔を適応的に制御することで収集の効率化を図るが,更新頻度推定に必要なWebページごとの状態情報をアクセスのつど更新する必要が生じ,その更新負荷が大規模化の妨げとなってしまう.提案手法はレコードのアクセス予定時刻の知識を利用してデータを配置するものであり,大規模Webクローリングの実データを用いた評価によりその劇的な効果を実証する.