|
本帖最后由 leok 于 2025-1-20 14:29 编辑
交互式图像编辑允许用户通过绘制、单击和拖动等视觉交互操作来修改图像。现有方法从视频中构建此类监督信号,因为它们可以捕捉物体如何随着各种物理交互而变化。然而,这些模型通常建立在文本到图像的扩散模型之上,因此需要 (i) 大量训练样本和 (ii) 额外的参考编码器来学习现实世界的动态和视觉一致性。在本文中,将这项任务重新表述为图像到视频的生成问题,以便继承强大的视频扩散先验来降低训练成本并确保时间一致性。具体来说,引入 FramePainter 作为此公式的有效实例。它使用稳定视频扩散进行初始化,仅使用轻量级稀疏控制编码器来注入编辑信号。考虑到时间注意力在处理两帧之间的大运动方面的局限性,进一步提出匹配注意力以扩大感受野,同时鼓励编辑图像标记和源图像标记之间的密集对应。重点介绍了 FramePainter 在各种编辑信号中的有效性和效率:它以少得多的训练数据全面超越了之前最先进的方法,实现了高度无缝和连贯的图像编辑,例如,自动调整杯子的反射。此外,FramePainter 还在现实世界视频中不存在的场景中表现出卓越的泛化能力,例如,将小丑鱼变成鲨鱼形状。
paper:https://arxiv.org/pdf/2501.08225v1
github:https://github.com/ybybzhang/framepainter
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|