Toybrick

为交互式图像编辑提供视频扩散先验方式

leok

高级会员

积分
904
楼主
发表于 昨天 13:59    查看: 59|回复: 1 | [复制链接]    打印 | 只看该作者
本帖最后由 leok 于 2025-1-20 14:29 编辑

交互式图像编辑允许用户通过绘制、单击和拖动等视觉交互操作来修改图像。现有方法从视频中构建此类监督信号,因为它们可以捕捉物体如何随着各种物理交互而变化。然而,这些模型通常建立在文本到图像的扩散模型之上,因此需要 (i) 大量训练样本和 (ii) 额外的参考编码器来学习现实世界的动态和视觉一致性。在本文中,将这项任务重新表述为图像到视频的生成问题,以便继承强大的视频扩散先验来降低训练成本并确保时间一致性。具体来说,引入 FramePainter 作为此公式的有效实例。它使用稳定视频扩散进行初始化,仅使用轻量级稀疏控制编码器来注入编辑信号。考虑到时间注意力在处理两帧之间的大运动方面的局限性,进一步提出匹配注意力以扩大感受野,同时鼓励编辑图像标记和源图像标记之间的密集对应。重点介绍了 FramePainter 在各种编辑信号中的有效性和效率:它以少得多的训练数据全面超越了之前最先进的方法,实现了高度无缝和连贯的图像编辑,例如,自动调整杯子的反射。此外,FramePainter 还在现实世界视频中不存在的场景中表现出卓越的泛化能力,例如,将小丑鱼变成鲨鱼形状。

paper:https://arxiv.org/pdf/2501.08225v1
github:https://github.com/ybybzhang/framepainter

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

leok

高级会员

积分
904
沙发
 楼主| 发表于 昨天 14:14 | 只看该作者
本帖最后由 leok 于 2025-1-20 14:29 编辑

/
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

产品中心 购买渠道 开源社区 Wiki教程 资料下载 关于Toybrick


快速回复 返回顶部 返回列表