Key points are not available for this paper at this time.
인터랙티브 이미지 분할은 수동 안내를 바탕으로 배경에서 대상을 분리하는 것을 목표로 하며, 입력으로는 이미지, 클릭, 낙서, 다각형 및 바운딩 박스와 같은 다중 모달 데이터를 사용합니다. 최근 비전 트랜스포머는 여러 다운스트림 시각 작업에서 큰 성공을 거두었으며, 이 강력한 아키텍처를 인터랙티브 분할 작업에 적용하기 위한 몇 가지 노력이 이루어졌습니다. 그러나 이전 연구들은 두 모달리티 간의 관계를 간과하고 자기 주의(Self-Attention)로 순수한 시각 정보를 처리하는 방식을 직접 모방합니다. 본 논문에서는 크로스 모달리티 비전 트랜스포머를 활용한 클릭 기반 인터랙티브 분할을 위한 간단하면서도 효과적인 네트워크를 제안합니다. 크로스 모달리티 트랜스포머는 상호 정보를 활용하여 학습 과정을 보다 잘 안내합니다. 여러 벤치마크에 대한 실험 결과, 제안된 방법이 이전 최신 모델들에 비해 우수한 성능을 달성함을 보여줍니다. 또한, 실패 사례를 피하는 측면에서 우리의 방법의 안정성은 실용적인 주석 도구로서의 잠재력을 보여줍니다. 코드는 https://github.com/lik1996/iCMFormer에서 공개될 예정입니다.
Li 외 (Mon,)은 이 질문을 연구했습니다.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: