October 1, 2013

랜덤 포레스트에서 최적의 결정 트리 수를 설정하기 위한 정보 이론적 접근

Key Points

Key points are not available for this paper at this time.

Abstract

데이터 분류는 데이터 마이닝 및 기계 학습 분야 내에서 데이터 집합의 모든 인스턴스에 소위 클래스 레이블을 주석 달기 위한 과정입니다. 이는 이미 레이블이 붙어 있는 데이터 인스턴스의 훈련 세트에서 모형을 생성하는 것을 포함하며, 이 모델은 아직 분류되지 않은 데이터 인스턴스의 클래스를 정의하는 데에도 사용될 수 있습니다. 데이터 분류 프로세스를 성공적으로 수행하는 방법은 랜덤 포레스트(RF) 알고리즘을 통해 제공되며, 이는 자체적으로 앙상블 기반 분류기의 일종입니다. 앙상블 기반 분류기는 서로 다르지만 중첩될 수 있는 인스턴스 세트에서 모델링된 분류기 집합을 사용하여 데이터 인스턴스에 할당된 클래스 레이블의 정확성을 높이고, 그 후 얻은 중간 분류 결과를 결합합니다. 이를 위해 RF는 특정 인스턴스를 분류하기 위해 여러 개의 결정 트리를 사용하며, 이 트리들로부터 다수결을 통해 최종 분류기를 결정합니다. 후자의 작업은 알고리즘 RF의 중요한 과제로, 최종 분류기의 정확성에 큰 영향을 미칩니다. 본 논문에서는 RF가 사용하는 두 개의 매개변수 중 하나인 결정 트리 수를 데이터 세트의 예측력 평가와 트리 수 사이의 의미 있는 관계에 따라 조정하는 RF 알고리즘의 변형을 제안하며, 이는 알고리즘의 정확성과 성능을 개선하는 것을 목표로 합니다. 이는 여러 개의 깨끗한 데이터 세트에 대한 포괄적인 실험 평가를 통해 최종적으로 입증됩니다.

Bookmark

랜덤 포레스트에서 최적의 결정 트리 수를 설정하기 위한 정보 이론적 접근

Key Points

Abstract

Cite This Study