|
提出了一种神经网络结构 FramePack,用于训练用于视频生成的下一帧(或下一帧部分)预测模型。FramePack 压缩输入帧,使 Transformer 上下文长度为固定值,而与视频长度无关。因此,能够使用视频扩散处理大量帧,其计算瓶颈类似于图像扩散。这也使得训练视频的批次大小显著增加(批次大小变得与图像扩散训练相当)。还提出了一种防漂移采样方法,该方法以倒置的时间顺序生成帧,并提前建立端点,以避免曝光偏差(迭代过程中的误差累积)。最后,表明,现有的视频扩散模型可以使用 FramePack 进行微调,并且它们的视觉质量可能会得到改善,因为下一帧预测支持更平衡的扩散调度程序,并且流移位时间步长更少。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
|