Toybrick

标题: UniAnimate-DiT:基于大规模视频扩散变换器的人体图像动画 [打印本页]

作者: leok    时间: 昨天 15:24
标题: UniAnimate-DiT:基于大规模视频扩散变换器的人体图像动画
介绍了 UniAnimate-DiT,这是一个先进的项目,它利用开源 Wan2.1 模型的尖端和强大功能来实现一致的人物图像动画。具体而言,为了保留原始 Wan2.1 模型的强大生成能力,我们实施了低秩自适应 (LoRA) 技术来微调一组极小的参数,从而显著降低了训练内存开销。设计了一个由多个堆叠的 3D 卷积层组成的轻量级姿态编码器,用于编码驾驶姿态的运动信息。此外,采用简单的串联操作将参考外观集成到模型中,并结合参考图像的姿态信息来增强姿态对齐。实验结果表明,方法实现了视觉上一致且时间上一致的高保真动画。UniAnimate-DiT 在 480p (832x480) 视频上进行训练,展现出强大的泛化能力,可在推理过程中无缝升级到 720P (1280x720)。

作者: leok    时间: 昨天 15:25
paper:https://arxiv.org/pdf/2504.11289v1
github:https://github.com/ali-vilab/unianimate-dit




欢迎光临 Toybrick (https://t.rock-chips.com/) Powered by Discuz! X3.3