Key points are not available for this paper at this time.
초록 기계 학습 시스템의 평가는 일반적으로 깨끗하고 큐레이션된 데이터셋에 대한 성능 측정으로 제한되어 있으며, 이는 데이터 배포가 학습에서 배포로 변할 수 있는 실제 상황에서의 견고성을 정확하게 반영하지 않을 수 있습니다. 특정 사례에 대한 시스템 실패의 예기치 않은 수준을 나타내는 인스턴스의 난이도를 이해하는 것이 견고성을 이해하는 핵심 측면입니다. 우리는 감독 작업에 대한 인스턴스 난이도의 항목 반응 이론 기반 추정을 사용하여 다양한 ML 모델의 견고성을 평가하는 프레임워크를 제시합니다. 이 프레임워크는 배포 조건에서의 소음과 변동성을 시뮬레이션하는 방 perturbation 방법을 적용하여 성능 편차를 평가합니다. 우리의 발견은 모델의 견고성과 인스턴스의 난이도를 기반으로 한 ML 기술의 포괄적인 분류 체계 개발로 이어지며, 특정 기계 학습 모델 계열의 강점과 한계를 더 깊이 이해할 수 있습니다. 이 연구는 특정 기계 학습 모델 계열의 취약성을 노출하는 중요한 단계입니다.
Fabra-Boluda et al. (금요일)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: