为交互式图像编辑提供视频扩散先验方式

[复制链接] · 发表于 2025-1-20 13:59:28

本帖最后由 leok 于 2025-1-20 14:29 编辑

交互式图像编辑允许用户通过绘制、单击和拖动等视觉交互操作来修改图像。现有方法从视频中构建此类监督信号，因为它们可以捕捉物体如何随着各种物理交互而变化。然而，这些模型通常建立在文本到图像的扩散模型之上，因此需要 (i) 大量训练样本和 (ii) 额外的参考编码器来学习现实世界的动态和视觉一致性。在本文中，将这项任务重新表述为图像到视频的生成问题，以便继承强大的视频扩散先验来降低训练成本并确保时间一致性。具体来说，引入 FramePainter 作为此公式的有效实例。它使用稳定视频扩散进行初始化，仅使用轻量级稀疏控制编码器来注入编辑信号。考虑到时间注意力在处理两帧之间的大运动方面的局限性，进一步提出匹配注意力以扩大感受野，同时鼓励编辑图像标记和源图像标记之间的密集对应。重点介绍了 FramePainter 在各种编辑信号中的有效性和效率：它以少得多的训练数据全面超越了之前最先进的方法，实现了高度无缝和连贯的图像编辑，例如，自动调整杯子的反射。此外，FramePainter 还在现实世界视频中不存在的场景中表现出卓越的泛化能力，例如，将小丑鱼变成鲨鱼形状。

paper:https://arxiv.org/pdf/2501.08225v1
github:https://github.com/ybybzhang/framepainter

只看该作者 · 发表于 2025-1-20 14:14:46

本帖最后由 leok 于 2025-1-20 14:29 编辑

/

为交互式图像编辑提供视频扩散先验方式

本帖子中包含更多资源

浏览过的版块