October 1, 2003Open Access

トレーニングデータが高価なときの学習：クラス分布が木の誘導に与える影響

Key Points

Key points are not available for this paper at this time.

Abstract

大規模な現実世界の帰納学習の問題では、トレーニングサンプルを調達、準備、および保存するためのコストや、それらから学習するための計算コストが関連しているため、トレーニング例の数はしばしば制限されなければなりません。このような状況下で、実践的に重要な質問は、もし n 個のトレーニング例だけが選ばれるなら、クラスはどのような割合で表現されるべきかということです。本稿では、固定されたトレーニングセットサイズに対して、トレーニングデータのクラス分布と、これらのデータから誘導された分類木の性能との関係を分析することによってこの質問に答える手助けをします。二十六のデータセットを調査し、それぞれについて学習のための最適なクラス分布を決定しました。自然に発生するクラス分布は、分類器の性能が非区別的な誤差率 (0/1 損失) を使って評価される場合に一般的に良好に機能することが示されています。しかし、ROC曲線下の面積が分類器の性能を評価するために使用されると、バランスの取れた分布が良好に機能することが示されました。これらのクラス分布の選択のいずれも、常に最良の性能を発揮する分類器を生成するわけではないため、各サンプルに関連するクラスに基づいてトレーニング例を選定するための予算感度プログレッシブサンプリングアルゴリズムを導入します。このアルゴリズムの経験的分析は、結果として得られるトレーニングセットのクラス分布が良好な（ほぼ最適な）分類性能を持つ分類器を生成することを示しています。

Bookmark

View Full Paper