Toybrick

标题: 将输入帧上下文打包到下一帧预测模型中用于视频生成 [打印本页]

作者: leok 时间: 2025-4-25 15:20
标题: 将输入帧上下文打包到下一帧预测模型中用于视频生成
提出了一种神经网络结构 FramePack，用于训练用于视频生成的下一帧（或下一帧部分）预测模型。FramePack 压缩输入帧，使 Transformer 上下文长度为固定值，而与视频长度无关。因此，能够使用视频扩散处理大量帧，其计算瓶颈类似于图像扩散。这也使得训练视频的批次大小显著增加（批次大小变得与图像扩散训练相当）。还提出了一种防漂移采样方法，该方法以倒置的时间顺序生成帧，并提前建立端点，以避免曝光偏差（迭代过程中的误差累积）。最后，表明，现有的视频扩散模型可以使用 FramePack 进行微调，并且它们的视觉质量可能会得到改善，因为下一帧预测支持更平衡的扩散调度程序，并且流移位时间步长更少。

作者: leok 时间: 2025-4-25 15:21
paper:https://arxiv.org/pdf/2504.12626v2
github:https://github.com/lllyasviel/framepack

欢迎光临 Toybrick (https://t.rock-chips.com/)