データ処理性能を改善するXML文書のコンパクト化法の開発

吉田 茂  中島 哲  小田切 淳一  伊藤 秀一  

誌名
電子情報通信学会論文誌 D   Vol.J89-D   No.4   pp.767-777
発行日: 2006/04/01
Online ISSN: 1881-0225
Print ISSN: 1880-4535
論文種別: 論文
専門分野: コンテンツ技術,Web情報システム
キーワード: 
XML,  CSV,  データ処理,  変換,  XSLT,  

本文: PDF(320.6KB)
>>論文を購入


あらまし: 
XML(Extensible Markup Language)は,国際標準の電子データ表現形式であり,柔軟で拡張性が高いが,反面,そのデータ処理は主記憶メモリを大量に消費し,負荷が重い.大容量のXML文書のデータ処理で,この課題を解決するため,本論文では,レコード構成のXML文書に対して形式変換によってデータ処理性能を改善する方法「XML CSV圧縮」を提案する.この方法は,データ処理に先立って,XML文書中でアクセス面から冗長な複数の要素をCSV(Comma Separated Values)形式でまとめる.本方法を評価した結果,CSV形式でまとめて削減した要素割合にほぼ比例して,メモリ消費量や展開時間を改善できることを確認した.本方法はXML文書の可逆変換であり,種々のプログラミング言語で実行できるように,XSLT(Extensible Style-sheet Language Transformations)で実行するソフトウェアを作成した.本方法では,レコード中でCSV形式にまとめる要素を指定する仕様を作成する必要があり,この作成作業に最も手間がかかる.そこで,この仕様をGUIで簡単に作成できる支援ツールを作成した.これらの開発により,本方法において,階層構造が複雑な文書や,多数の要素をもつ文書でも,実用的に扱えるようになった.