목적: 자동화된 전체 슬라이드 이미지(WSI) 분석, 특히 딥 러닝(DL) 기반 알고리즘의 응용이 다양한 질병의 자동 탐지, 분류, 분할 및 예측을 가능하게 하고 있습니다. 성능 평가는 이러한 복잡한 빅데이터 기반 기술의 성공에 중요한 역할을 합니다. 우리의 목적은 Tumor InfiltratinG lymphocytes in breast cancER 챌린지가 제공한 유방암 WSI 데이터셋에 적용된 DL 분할 모델의 성능 평가를 수행하고 WSI 분할 모델 평가에서의 방법론적 문제를 조사하는 것입니다. 접근법: 우리는 DL 모델의 성능을 종양 및 기질 영역의 분할에서 평가하고, 훈련 및 테스트 데이터가 다른 출처에서 올 때 이들 모델의 성능을 개선하는 데 있어 색상 정규화의 효과를 대조했습니다. 중요한 문제 중 하나는 참조 표준이 선택된 관심 영역(ROI)에서만 주석을 포함할 때 이미지 분할 성능의 집계입니다. 우리는 분석 단위(픽셀, ROI 및 슬라이드)에 따라 성능을 집계하기 위한 세 가지 서로 다른 방법과 슬라이드 수준에서 성능 결과의 분산을 추정하기 위한 부트스트랩 방법을 도입했습니다. 결과: 서로 다른 분석 단위를 사용할 경우 서로 다른 평균 성능 추정뿐만 아니라 서로 다른 불확실성 수준을 생성할 수 있음을 발견했습니다. 우리의 결과는 또한 훈련 및 테스트 데이터가 다른 출처에서 올 때 색상 정규화가 DL 모델 성능을 상당히 개선했음을 보여주었습니다. 결론: 우리의 연구는 계산 병리학 응용 프로그램의 성능 평가에 사용되는 이미지 취득, 연구 설계 및 통계 분석 방법의 중요성을 보여줍니다.
Arab et al. (Fri,)은 이 질문을 연구했습니다.