구조적 시공간 정렬로 비디오-언어 표현 향상 | Synapse