October 4, 2023Open Access

분류 정확도 지표의 실제 사용에서의 도전: 재현율과 정밀도에서 매튜스 상관계수까지

Key Points

Key points are not available for this paper at this time.

Abstract

분류의 정확성은 그 해석, 사용 및 궁극적인 의사 결정에 근본적입니다. 불행히도, 평가된 표면 정확도는 진정한 정확도와 크게 다를 수 있습니다. 분류 정확도 지표의 잘못된 추정과 관련된 잘못된 해석은 종종 유병률의 변동과 불완전한 기준 표준의 사용으로 인해 발생합니다. 유병률의 변동과 기준 표준 품질과 관련된 문제의 근본적인 문제는 이진 분류에 대해 재조명되며, 특히 매튜스 상관계수(MCC)의 사용에 초점을 맞추고 있습니다. MCC의 한 가지 주요 속성은 이진 분류에서 두 클래스 모두에서 분류가 잘 수행되었을 때만 높은 값을 얻을 수 있다는 것입니다. 그러나 여기에서는 컴퓨터 과학, 의학 및 환경 과학과 같은 분야에서 사용되는 인기 있는 정확도 지표 세트(재현율, 정밀도, 특이도, 음성 예측 값, J, F1, 우도 비율 및 MCC)와 하나의 주요 속성(유병률)이 모두 유병률의 변동과 불완전한 기준 표준의 사용에 크게 영향을 받는다는 것이 보여집니다. 원거리 탐지와 같은 응용 프로그램에서 데이터 품질에 대한 실제 값을 사용한 시뮬레이션은 각 지표가 가능한 유병률 범위 및 기준 표준 품질의 다양한 수준에 따라 변동함을 보여주었습니다. 정확도 지표의 잘못된 추정의 방향과 규모는 유병률 및 기준 표준의 불완전함의 크기와 특성에 따라 달라졌습니다. 표면적인 MCC가 상당히 과대 또는 과소 평가될 수 있다는 것은 분명했습니다. 또한, 높게 나타나는 MCC는 확실히 좋지 않은 분류에서 발생했습니다. 다른 정확도 지표들과 마찬가지로, MCC의 유용성은 과장될 수 있으며, 표면적인 값은 신중하게 해석해야 합니다. 표면적인 정확도와 유병률 값은 오해를 일으킬 수 있으므로 이러한 문제를 인식하고 해결해야 한다는 요청을 귀 기울여야 합니다.

AI에게 질문

Bookmark

View Full Paper