March 12, 2024Open Access

SSM이 비디오 확산 모델과 만나다: 구조화된 상태 공간을 활용한 효율적인 비디오 생성

Key Points

Key points are not available for this paper at this time.

Abstract

확산 모델을 통한 이미지 생성의 놀라운 성과를 고려할 때, 연구 커뮤니티는 이러한 모델을 비디오 생성으로 확장하는 데 점점 더 많은 관심을 보이고 있습니다. 최근 비디오 생성에 대한 확산 모델은 주로 시간이 지남에 따라 특징을 추출하기 위해 주의 레이어를 활용하고 있습니다. 그러나 주의 레이어는 시퀀스 길이에 따라 메모리 소비가 제곱으로 증가하는 한계가 있습니다. 이 한계는 확산 모델을 사용하여 더 긴 비디오 시퀀스를 생성하려고 할 때 상당한 도전 과제를 제시합니다. 이러한 문제를 극복하기 위해 우리는 상태 공간 모델(SSM)을 활용할 것을 제안합니다. SSM은 시퀀스 길이에 비해 선형 메모리 소비로 인해 최근에 유력한 대안으로 주목받고 있습니다. 실험에서는 먼저 UCF101이라는 비디오 생성의 표준 벤치마크로 SSM 기반 모델을 평가합니다. 또한 SSM의 비디오 생성 잠재력을 조사하기 위해 MineRL Navigate 데이터셋을 사용하여 프레임 수를 64와 150으로 변경하는 실험을 수행합니다. 이러한 설정에서 우리의 SSM 기반 모델은 더 긴 시퀀스에서 메모리 소비를 상당히 줄일 수 있으며, 주의 기반 모델에 비해 경쟁력 있는 FVD 점수를 유지합니다. 우리의 코드는 https://github.com/shim0114/SSM-Meets-Video-Diffusion-Models에서 이용 가능합니다.

SSM이 비디오 확산 모델과 만나다: 구조화된 상태 공간을 활용한 효율적인 비디오 생성

Key Points

Abstract

Cite This Study

Also Consider

Also Consider