Key points are not available for this paper at this time.
대규모 비디오-언어 모델(VLM)의 사전 학습이 다양한 하위 비디오-언어 작업에 대해 놀라운 잠재력을 보여주었으나, 기존 VLM은 여전히 일반적으로 나타나는 특정 한계로 인해 어려움을 겪을 수 있습니다. 예를 들어, 조잡한 크로스 모달 정렬, 시간 동역학의 과소 모델링, 비디오-언어 뷰의 분리 등이 있습니다. 본 연구에서는 정밀한 구조적 시공간 정렬 학습 방법(즉, Finsta)을 통해 VLM을 향상시키는 것을 목표로 합니다. 우선, 입력 텍스트와 비디오를 정밀한 장면 그래프(SG) 구조로 나타내며, 두 가지는 두 개의 모달리티를 연결하기 위해 전체 SG(HSG)로 통합됩니다. 그런 다음 SG 기반 프레임워크가 구축되며, 텍스트 SG(TSG)는 그래프 트랜스포머로 인코딩되고, 비디오 동적 SG(DSG)와 HSG는 공간적 및 시간적 특징 전파를 위한 새로운 순환 그래프 트랜스포머로 모델링됩니다. 공간-시간가우시안 미분 그래프 트랜스포머가 추가로 설계되어 공간적 및 시간적 차원 전반에 걸친 객체의 변화 감지를 강화합니다. 다음으로 TSG와 DSG의 정밀한 구조적 특징에 기반하여 객체 중심의 공간 정렬 및 술어 중심의 시간 정렬을 각각 수행하여 공간성과 시간성 모두에서 비디오-언어 기반을 향상시킵니다. 우리는 기존에 잘 훈련된 VLM에 통합할 수 있는 플러그 앤 플레이 시스템으로 방법을 설계하여 기초부터 다시 훈련할 필요 없이 또는 하위 응용 프로그램의 SG 주석에 의존하지 않고 추가 표현 증강을 가능하게 합니다. 12개의 데이터셋에서 표준 및 장기 비디오 시나리오를 포함한 6개의 대표적인 VL 모델링 작업에서 Finsta는 기존 13개의 강력한 VLM을 지속적으로 개선하며, 정밀 조정 및 제로 샷 설정 모두에서 현재 최신 상태의 최종 작업 성능을 크게 향상시킵니다.
Fei et al. (Thu,)은 이 질문을 연구했습니다.