Toybrick

标题: 将输入帧上下文打包到下一帧预测模型中用于视频生成 [打印本页]

作者: leok    时间: 昨天 15:20
标题: 将输入帧上下文打包到下一帧预测模型中用于视频生成
提出了一种神经网络结构 FramePack,用于训练用于视频生成的下一帧(或下一帧部分)预测模型。FramePack 压缩输入帧,使 Transformer 上下文长度为固定值,而与视频长度无关。因此,能够使用视频扩散处理大量帧,其计算瓶颈类似于图像扩散。这也使得训练视频的批次大小显著增加(批次大小变得与图像扩散训练相当)。还提出了一种防漂移采样方法,该方法以倒置的时间顺序生成帧,并提前建立端点,以避免曝光偏差(迭代过程中的误差累积)。最后,表明,现有的视频扩散模型可以使用 FramePack 进行微调,并且它们的视觉质量可能会得到改善,因为下一帧预测支持更平衡的扩散调度程序,并且流移位时间步长更少。

作者: leok    时间: 昨天 15:21
paper:https://arxiv.org/pdf/2504.12626v2
github:https://github.com/lllyasviel/framepack




欢迎光临 Toybrick (https://t.rock-chips.com/) Powered by Discuz! X3.3