October 2, 2023

크로스 모달리티 비전 트랜스포머를 이용한 인터랙티브 이미지 분할

Key Points

Key points are not available for this paper at this time.

Abstract

인터랙티브 이미지 분할은 수동 안내를 바탕으로 배경에서 대상을 분리하는 것을 목표로 하며, 입력으로는 이미지, 클릭, 낙서, 다각형 및 바운딩 박스와 같은 다중 모달 데이터를 사용합니다. 최근 비전 트랜스포머는 여러 다운스트림 시각 작업에서 큰 성공을 거두었으며, 이 강력한 아키텍처를 인터랙티브 분할 작업에 적용하기 위한 몇 가지 노력이 이루어졌습니다. 그러나 이전 연구들은 두 모달리티 간의 관계를 간과하고 자기 주의(Self-Attention)로 순수한 시각 정보를 처리하는 방식을 직접 모방합니다. 본 논문에서는 크로스 모달리티 비전 트랜스포머를 활용한 클릭 기반 인터랙티브 분할을 위한 간단하면서도 효과적인 네트워크를 제안합니다. 크로스 모달리티 트랜스포머는 상호 정보를 활용하여 학습 과정을 보다 잘 안내합니다. 여러 벤치마크에 대한 실험 결과, 제안된 방법이 이전 최신 모델들에 비해 우수한 성능을 달성함을 보여줍니다. 또한, 실패 사례를 피하는 측면에서 우리의 방법의 안정성은 실용적인 주석 도구로서의 잠재력을 보여줍니다. 코드는 https://github.com/lik1996/iCMFormer에서 공개될 예정입니다.

Bookmark

크로스 모달리티 비전 트랜스포머를 이용한 인터랙티브 이미지 분할

Key Points

Abstract

Cite This Study

Also Consider

Also Consider