擬似学習集合の生成による決定木の再構成手法と学習特性

浅見 徹  鵜木 八寿  橋本 和夫  山本 誠一  

誌名
電子情報通信学会論文誌 D   Vol.J77-D2   No.1   pp.29-40
発行日: 1994/01/25
Online ISSN: 
DOI: 
Print ISSN: 0915-1923
論文種別: 論文
専門分野: 画像・パターン処理
キーワード: 
決定木,  ID3,  帰納学習,  知識獲得,  

本文: PDF(847.1KB)>>
論文を購入




あらまし: 
医療診断のような診断知識を対象とする帰納学習の枠組みの中では,ID3に代表される決定木による方法が,有力な学習手法として認められている.決定木による診断では,学習に使用する診断事例の数が多いほど診断結果の統計的な信頼性は高くなるが,実際の応用では,あらかじめ十分な量の学習事例を集めておくことが困難な場合がある.一つの解決策として,実際に決定木を障害診断に用いた結果から個々の終端ノードの利用率を求め,それから擬似的な学習集合を生成しそれをもとに決定木を再構築して診断効率(診断に至るまでの平均検査回数)の良い決定木を得る方法が考えられるが,学習集合を構成する事例に含まれる多くの属性に関して値が未観測となり,既存の学習方式を適用することが難しい.本論文では,(1)決定木から学習集合を再構成する際,各属性の値の値域を既知の事例を使って求め,(2)診断事例に対する個々の終端ノードNLの利用率PNL),未観測属性の数,各未観測属性の値域から,生成すべき最小の学習集合の大きさMを求め,(3)終端ノードNLに対してMPNL)に比例する個数の擬似的診断事例を生成し,(4)診断に未観測の属性がある場合は,属性の値が値域を一様分布するよう事例を生成することにより学習集合を再構成し,(5)これにID3-IVアルゴリズムを適用することによって,もとの決定木と論理的に等価かつ診断効率の向上した決定木を生成する方法と,その高速化手法を提案する.提案する方法は,診断知識の効率を,知識の運用に伴って向上させることを可能とするが,実際の質問応答型の診断へ応用する場合,連続する質問(属性値獲得手続き)が,文脈上の制限から分離できないことがある.この問題を解決するため,(6)連続する関連質問を一つの拡張属性としてまとめた上で決定木を再構成し,その後で拡張属性の部分を再展開する手法を提案し,同手法により質問の文脈を保存しつつ効率の良い決定木を得ることができることを示す.