Key points are not available for this paper at this time.
지지 벡터 기계(SVM)는 다른 방법들이 제공하기 어려운 여러 가지 두드러진 특성을 전달하는 확고한 수학적 기초 덕분에 분류 및 회귀 분석을 위한 유망한 방법입니다. 그러나 SVM의 두드러진 특성에도 불구하고, SVM은 패턴 인식이나 기계 학습에 비해 대규모 데이터 마이닝에 그리 선호되지 않고 있습니다. 그 이유는 SVM의 학습 복잡성이 데이터 세트의 크기에 크게 의존하기 때문입니다. 많은 실제 데이터 마이닝 애플리케이션은 수백만 또는 수십억 개의 데이터 기록을 포함하고 있으며, 전체 데이터를 여러 번 스캔하는 것도 수행하기에는 비용이 너무 비쌉니다. 이 논문은 매우 대규모 데이터 세트를 처리하기 위해 특별히 설계된 새로운 방법인 클러스터링 기반 SVM(CB-SVM)을 제시합니다. CB-SVM은 데이터의 통계적 요약을 전달하는 고품질 샘플을 제공하기 위해 전체 데이터 세트를 한 번만 스캔하는 계층적 마이크로 클러스터링 알고리즘을 적용하여 SVM을 학습하는 데 최대한의 이점을 극대화합니다. CB-SVM은 제한된 자원으로 매우 대규모 데이터 세트에 대한 최상의 SVM 경계를 생성하려고 합니다. 합성 및 실제 데이터 세트에 대한 우리의 실험은 CB-SVM이 매우 대규모 데이터 세트에 대해 높은 확장성을 제공하면서도 높은 분류 정확도를 생성한다는 것을 보여줍니다.
Yu et al. (Sun,)은 이 문제를 연구하였습니다.