Key points are not available for this paper at this time.
대규모 실제 유도 학습 문제의 경우, 훈련 예제의 수는 종종 훈련 예제를 조달하고 준비하며 저장하는 데 관련된 비용 및/또는 이러한 예제로부터 학습하는 데 소요되는 컴퓨터 비용 때문에 제한되어야 합니다. 이러한 상황에서 실용적으로 중요한 질문은: 선택할 수 있는 훈련 예제가 n개뿐이라면, 각 클래스는 어떤 비율로 나타나야 하는가입니다? 본 논문에서는 고정된 훈련 세트 크기에 대해 훈련 데이터의 클래스 분포와 이러한 데이터로부터 유도된 분류 트리의 성능 간의 관계를 분석하여 이 질문에 대한 답을 돕습니다. 우리는 스물여섯 개의 데이터 세트를 연구하고, 각 데이터 세트에 대해 학습을 위한 최상의 클래스 분포를 결정합니다. 자연적으로 발생하는 클래스 분포는 일반적으로 정량화되지 않은 오류율(0/1 손실)을 사용하여 분류기 성능을 평가할 때 좋은 성능을 보이는 것으로 나타났습니다. 그러나 ROC 곡선 아래 면적을 사용하여 분류기 성능을 평가할 때는 균형 잡힌 분포가 좋은 성능을 보입니다. 이러한 클래스 분포 선택 중 어떤 것도 항상 최고의 성능을 내는 분류기를 생성하지 않기 때문에, 각 예제와 관련된 클래스를 기반으로 훈련 예제를 선택하는 예산에 민감한 점진적 샘플링 알고리즘을 도입합니다. 이 알고리즘에 대한 경험적 분석은 결과로 얻어진 훈련 세트의 클래스 분포가 우수한(거의 최적의) 분류 성능을 가진 분류기를 생성함을 보여줍니다.
Weiss et al. (수요일) 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: