空間的に故障率が異なる計算機クラスタシステムにおけるチェックポインティング

東 美和子  近藤 正章  今井 雅  中村 宏  南谷 崇  

誌名
電子情報通信学会論文誌 D   Vol.J89-D   No.8   pp.1705-1716
発行日: 2006/08/01
Online ISSN: 1881-0225
DOI: 
Print ISSN: 1880-4535
論文種別: 特集論文 (ディペンダブルコンピューティング論文特集)
専門分野: ディペンダブルネットワーク・分散システム
キーワード: 
クラスタシステム,  高信頼化,  チェックポインティング,  多重故障,  平均故障率,  

本文: PDF(383.3KB)>>
論文を購入




あらまし: 
従来のチェックポインティングでは,システム内の各ノードがもつ故障率の均一性が前提とされている.しかし,近年広く用いられているクラスタシステムにおいては,利用範囲の広がり,システムの大規模化が進むと予想され,一つのシステムの中でも故障の集中するノード,そうでないノードが生じると考えられる.そこで本論文では,チェックポインティングによるクラスタシステムの高信頼化において,システム内の故障率に空間的な異なりがある場合に着目し,チェックポインティング間隔と,チェックポインティングデータの保存先それぞれの最適化手法を提案する.前者の最適化手法によって故障率の異なるシステムでの最適チェックポインティング間隔の決定を簡便にし,その正しさをシミュレーションによって確認した.後者の最適化手法によって同時多重故障を低減させるシステムを構築し,その結果,4096ノードのシステムで10%のオーバヘッド削減を達成した.