VideoPainter：具有即插即用上下文控制的任意长度的视频修...

[复制链接] · 发表于 2025-3-14 11:12:58

视频修复旨在恢复损坏的视频内容，目前已取得长足进步。尽管取得了这些进展，但现有方法（无论是通过光流和感受野先验传播未遮蔽区域像素，还是在时间上扩展图像修复模型）都面临着生成完全遮蔽对象或在一个模型中平衡背景上下文保留和前景生成的相互竞争的目标的挑战。为了解决这些限制，提出了一种新颖的双流范式 VideoPainter，它结合了高效的上下文编码器（仅包含 6% 的主干参数）来处理遮蔽视频，并将主干感知的背景上下文线索注入任何预训练的视频 DiT，以即插即用的方式生成语义一致的内容。这种架构分离显著降低了模型的学习复杂性，同时实现了关键背景上下文的细致入微的集成。还引入了一种新颖的目标区域 ID 重采样技术，可以实现任意长度的视频修复，大大增强了实际适用性。此外，利用当前的视觉理解模型建立了可扩展的数据集管道，贡献了 VPData 和 VPBench 以促进基于分段的修复训练和评估，这是迄今为止最大的视频修复数据集和基准，包含超过 390K 个不同的剪辑。使用修复作为管道基础，还探索了下游应用，包括视频编辑和视频编辑对数据生成，展示了具有竞争力的性能和巨大的实用潜力。大量实验表明，VideoPainter 在任意长度的视频修复和编辑方面均表现出色，涵盖了八个关键指标，包括视频质量、遮罩区域保留和文本连贯性。

只看该作者 · 发表于 2025-3-14 11:13:26

paper:https://arxiv.org/pdf/2503.05639v2
github:https://github.com/TencentARC/VideoPainter

VideoPainter：具有即插即用上下文控制的任意长度的视频修...

本帖子中包含更多资源