October 1, 2003Open Access

훈련 데이터 비용이 클 때 학습: 클래스 분포가 트리 생성에 미치는 영향

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 실제 유도 학습 문제의 경우, 훈련 예제의 수는 종종 훈련 예제를 조달하고 준비하며 저장하는 데 관련된 비용 및/또는 이러한 예제로부터 학습하는 데 소요되는 컴퓨터 비용 때문에 제한되어야 합니다. 이러한 상황에서 실용적으로 중요한 질문은: 선택할 수 있는 훈련 예제가 n개뿐이라면, 각 클래스는 어떤 비율로 나타나야 하는가입니다? 본 논문에서는 고정된 훈련 세트 크기에 대해 훈련 데이터의 클래스 분포와 이러한 데이터로부터 유도된 분류 트리의 성능 간의 관계를 분석하여 이 질문에 대한 답을 돕습니다. 우리는 스물여섯 개의 데이터 세트를 연구하고, 각 데이터 세트에 대해 학습을 위한 최상의 클래스 분포를 결정합니다. 자연적으로 발생하는 클래스 분포는 일반적으로 정량화되지 않은 오류율(0/1 손실)을 사용하여 분류기 성능을 평가할 때 좋은 성능을 보이는 것으로 나타났습니다. 그러나 ROC 곡선 아래 면적을 사용하여 분류기 성능을 평가할 때는 균형 잡힌 분포가 좋은 성능을 보입니다. 이러한 클래스 분포 선택 중 어떤 것도 항상 최고의 성능을 내는 분류기를 생성하지 않기 때문에, 각 예제와 관련된 클래스를 기반으로 훈련 예제를 선택하는 예산에 민감한 점진적 샘플링 알고리즘을 도입합니다. 이 알고리즘에 대한 경험적 분석은 결과로 얻어진 훈련 세트의 클래스 분포가 우수한(거의 최적의) 분류 성능을 가진 분류기를 생성함을 보여줍니다.

Bookmark

View Full Paper