Key points are not available for this paper at this time.
データポイントに徐々にノイズを加えることで順方向拡散プロセスを構築し、新しいサンプルを生成するための逆デノイジングプロセスを学習する拡散確率モデル(DPM)は、複雑なデータ分布を扱うことができることが示されています。最近の画像合成における成功にもかかわらず、DPMをビデオ生成に適用することは、高次元データ空間のため依然として課題です。従来の方法は通常、同じビデオクリップ内のフレームが独立したノイズによって破壊される標準的な拡散プロセスを採用しており、コンテンツの冗長性と時間的相関を無視しています。本研究では、フレームごとのノイズをすべてのフレームで共有される基礎ノイズと時間軸に沿って変化する残差ノイズに分解することで、分解された拡散プロセスを提案します。デノイジングパイプラインは、ノイズ分解に応じてマッチするための2つの共同学習ネットワークを使用します。さまざまなデータセットでの実験により、我々のアプローチであるVideoFusionが高品質ビデオ生成においてGANベースおよび拡散ベースの代替手段を凌駕することが確認されました。また、我々の分解された定式化は、事前に訓練された画像拡散モデルから利益を得ることができ、テキスト条件のビデオ生成をうまくサポートできることを示します。
Luo et al.(木曜日、)はこの問題を研究しました。