Key points are not available for this paper at this time.
テキストから画像への拡散モデル(T2I)は、リアルで美的な画像を生成する前例のない能力を示しています。それに対して、テキストから動画への拡散モデル(T2V)は、訓練動画の質と量が不十分なため、フレーム品質とテキストの整合性で遅れをとっています。本論文では、T2Iの優れた能力を利用し、T2Vの性能を向上させるトレーニング不要でプラグアンドプレイの方法であるVideoElevatorを紹介します。従来のT2Vサンプリング(すなわち時間的および空間的モデリング)とは異なり、VideoElevatorは各サンプリングステップを時間的動きの洗練と空間的品質の向上に明示的に分解します。具体的には、時間的動きの洗練は、カプセル化されたT2Vを使用して時間的一貫性を強化し、その後T2Iに必要なノイズ分布に逆戻りします。次に、空間的品質の向上は、膨張したT2Iを利用して、よりノイズの少ない潜在変数を直接予測し、よりフォトリアルな詳細を追加します。さまざまなT2VとT2Iの組み合わせによる広範なプロンプトで実験を行いました。結果は、VideoElevatorが基礎となるT2IでT2Vベースラインの性能を向上させるだけでなく、個別化されたT2Iでスタイリッシュな動画合成を促進することを示しています。私たちのコードは https://github.com/YBYBZhang/VideoElevator で入手可能です。
Zhang et al. (Fri,) はこの質問を研究しました。