Key points are not available for this paper at this time.
이미지 수준 레이블을 통한 약한 지도 학습 세분화(WSSS)는 도전적인 과제입니다. 주류 접근법은 다단계 프레임워크를 따르며 높은 훈련 비용의 문제에 직면합니다. 본 논문에서는 추가 훈련 없이 이미지 수준 레이블만으로 다양한 범주를 지역화할 수 있는 Contrastive Language-Image Pre-training 모델(CLIIP)의 가능성을 탐구합니다. CLIP로부터 고품질 세분화 마스크를 효율적으로 생성하기 위해 우리는 CLIP-ES라는 새로운 WSSS 프레임워크를 제안합니다. 우리의 프레임워크는 CLIP에 맞는 특별한 디자인을 통해 WSSS의 모든 세 단계를 개선합니다: 1) 우리는 GradCAM에 softmax 함수를 도입하고 CLIP의 제로샷 능력을 활용하여 비대상 클래스와 배경으로 인한 혼란을 억제합니다. 동시에 CLIP을 최대한 활용하기 위해 WSSS 설정에서 텍스트 입력을 재탐색하고 선명도 기반 프롬프트 선택 및 동의어 융합이라는 두 가지 텍스트 기반 전략을 맞춤화합니다. 2) CAM 정제 단계를 단순화하기 위해 CLIP-ViTs의 고유한 다중 헤드 자기 주의(MHSA)를 기반으로 하는 실시간 클래스 인식 주의 기반 친화도(CAA) 모듈을 제안합니다. 3) CLIP에 의해 생성된 마스크로 최종 세분화 모델을 훈련할 때 우리는 신뢰할 수 있는 영역에 집중한 신뢰도 유도 손실(CGL)을 도입했습니다. 우리의 CLIP-ES는 패스칼 VOC 2012 및 MS COCO 2014에서 SOTA 성능을 기록하면서 이전 방법의 10%의 시간만을 소요하여 의사 마스크 생성을 수행합니다. 코드: https://github.com/linyq2117/CLIP-ES.
Lin et al. (Thu,)는 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: