Key points are not available for this paper at this time.
최근 비전 언어 사전 훈련에 의한 개방형 어휘 이미지 분류는 놀라운 성과를 보여주었으며, 모델이 특정 카테고리의 추가 주석 이미지를 보지 않고도 임의의 카테고리를 분류할 수 있음을 입증했습니다. 그러나 보다 넓은 비전 문제에서 개방형 어휘 인식이 잘 작동하도록 만드는 방법은 아직 불분명합니다. 이 논문은 오프-더-셸프 사전 훈련된 비전-언어 모델인 CLIP을 기반으로 개방형 어휘 의미 분할을 목표로 합니다. 그러나 의미 분할과 CLIP 모델은 서로 다른 시각적 세부 사항에서 작동하며, 의미 분할은 픽셀 단위로 처리하는 반면 CLIP은 이미지 단위로 수행합니다. 처리 세부 사항의 불일치를 해소하기 위해, 우리는 일반적으로 사용되는 일단계 FCN 기반 프레임워크의 사용을 거부하고, 첫 번째 단계에서 일반화 가능한 마스크 제안을 추출하고 두 번째 단계에서 이미지 기반 CLIP 모델을 활용하여 첫 번째 단계에서 생성된 마스크 이미지 크롭에 대해 개방형 어휘 분류를 수행하는 2단계 의미 분할 프레임워크를 제안합니다. 우리의 실험 결과는 이 2단계 프레임워크가 COCO Stuff 데이터셋에서만 학습하고 미세 조정 없이 다른 데이터셋에서 평가할 때 FCN보다 우수한 성능을 달성할 수 있음을 보여줍니다. 더 나아가 이 간단한 프레임워크는 이전의 제로샷 의미 분할 최신 기술을 큰 마진으로 초과합니다: Pascal VOC 2012 데이터셋에서 +29.5 hIoU, COCO Stuff 데이터셋에서 +8.9 hIoU. 그 단순함과 강력한 성능으로 인해, 우리는 이 프레임워크가 향후 연구를 촉진하는 기준선으로 작용하기를 바랍니다. 코드는 공공에 공개되어 있습니다: https://github.com/MendelXu/zsseg.baseline.
Xu et al. (Wed,)가 이 질문을 연구했습니다.