비디오 객체 분할(RVOS)은 자연어 표현을 기반으로 비디오에서 객체를 분할하고 추적하는 것을 요구하며, 외관과 움직임 모두에 대한 세밀한 이해를 요구합니다. 비디오 분할 모델 SAM2와 다중 모달 대규모 언어 모델(MLLM)을 결합한 Sa2VA에 기반하여, 우리는 분할 성능을 제한하는 두 가지 주요 병목 현상을 확인했습니다: 희소 프레임 샘플링과 전체 비디오에 대한 단일 SEG 토큰 의존성입니다. 우리는 이러한 문제를 해결하기 위해 Segmentation Augmented and Selective Averaged Sa2VA SaSaSa2VA를 제안합니다. 제7회 LSVOS 챌린지(RVOS 트랙)에서 SaSaSa2VA는 67.45의 J&F를 달성하여 1위를 기록하였으며, 준우승자보다 2.80점 높은 성과를 보였습니다. 이 결과와 절제 연구는 효율적인 분할 증대와 테스트 시간 앙상블이 RVOS에 대한 기반 MLLM을 크게 향상시킨다는 것을 보여줍니다. 코드는 Sa2VA 저장소에 공개되었습니다: https://github.com/magic-research/Sa2VA.
Niu et al. (Sun,)은 이 문제에 대해 연구했습니다.