Key points are not available for this paper at this time.
视频到视频的合成模型面临着诸多挑战,例如确保角色在帧之间的一致生成、保持平滑的时间过渡,以及在快速运动中保持质量。引入的联合全跨帧自注意机制改善了角色的一致性,但这增大了计算复杂性。这种全跨帧自注意机制还包含冗余细节,并限制了可联合编辑的帧数,因为其计算成本。此外,跨帧注意中的帧缺失会对时间一致性和视觉质量产生不利影响。为了解决这些限制,我们提出了一种新的自适应运动引导的跨帧注意机制,在保持语义细节和时间一致性的同时,显著降低复杂性。具体来说,我们在跨帧注意中选择性地包含连续帧的运动区域,并基于光流采样稀疏地包括静止区域。该技术允许在不增加额外计算开销的情况下增加联合编辑帧的数量。对于更长时间的视频编辑,现有方法主要关注帧插值或从联合编辑的关键帧流形变,这通常会导致模糊帧或降低时间一致性。为此,我们引入联合编辑帧的KV缓存,并在所有中间帧中重用相同的KV,显著提升了中间帧的质量和时间一致性。总体而言,我们的运动采样方法使得使用大约三倍于现有联合编辑方法的关键帧成为可能,同时保持更优的预测质量。当跨40帧使用全扩展自注意进行联合编辑时,Ada-VE在不损害视觉质量或时间一致性的情况下,达到了最高4倍的加速。
Mahmud 等人(弗里)研究了这个问题。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: