What type of study is this?

This is a Experimental Study study.

October 3, 2025Open Access

제7회 LSVOS RVOS 트랙을 위한 첫 번째 솔루션: SaSaSa2VA

Key Points

SaSaSa2VA는 LSVOS 챌린지 RVOS 트랙에서 67.45의 J&F를 달성하여 1위를 기록했습니다.
효율적인 분할 증대와 테스트 시간 앙상블이 성능을 크게 향상시켰습니다.
주요 개선점은 희소 프레임 샘플링과 단일 토큰 의존성 문제를 해결합니다.
다중 모달 대규모 언어 모델의 사용이 비디오 객체 분할을 성공적으로 향상시킵니다.

Abstract

비디오 객체 분할(RVOS)은 자연어 표현을 기반으로 비디오에서 객체를 분할하고 추적하는 것을 요구하며, 외관과 움직임 모두에 대한 세밀한 이해를 요구합니다. 비디오 분할 모델 SAM2와 다중 모달 대규모 언어 모델(MLLM)을 결합한 Sa2VA에 기반하여, 우리는 분할 성능을 제한하는 두 가지 주요 병목 현상을 확인했습니다: 희소 프레임 샘플링과 전체 비디오에 대한 단일 SEG 토큰 의존성입니다. 우리는 이러한 문제를 해결하기 위해 Segmentation Augmented and Selective Averaged Sa2VA SaSaSa2VA를 제안합니다. 제7회 LSVOS 챌린지(RVOS 트랙)에서 SaSaSa2VA는 67.45의 J&F를 달성하여 1위를 기록하였으며, 준우승자보다 2.80점 높은 성과를 보였습니다. 이 결과와 절제 연구는 효율적인 분할 증대와 테스트 시간 앙상블이 RVOS에 대한 기반 MLLM을 크게 향상시킨다는 것을 보여줍니다. 코드는 Sa2VA 저장소에 공개되었습니다: https://github.com/magic-research/Sa2VA.

제7회 LSVOS RVOS 트랙을 위한 첫 번째 솔루션: SaSaSa2VA

Key Points

Abstract

Cite This Study