Self Forcing：Adobe与德克萨斯大学联合研发的自回归视频扩散模型训练优化框架

原创 2025-06-21 11:13:49新闻资讯

539

Self Forcing是什么

Self Forcing是Adobe Research与德克萨斯大学奥斯汀分校联合研发的自回归视频扩散模型训练优化框架，该项目针对自回归视频生成中长期存在的训练-测试分布不匹配问题（Exposure Bias），提出了一种创新的训练范式，通过在训练阶段模拟推理过程来显著提升模型生成质量。作为当前视频生成领域最具突破性的技术之一，其核心价值在于仅需8步采样即可生成1280×720分辨率的高清视频，在RTX 4090显卡上实现17 FPS的实时生成速度，同时将显存占用控制在12GB以内。

技术测试表明，相比传统方法，Self Forcing在保持生成速度的同时，将视频质量提升至接近多步扩散模型的水平——在VBench评估中综合得分84.31，超越同类模型CausVid 3.8个百分点，时延降低150-400倍。该系统已开源完整训练代码、模型权重及ComfyUI插件，支持文生视频、图生视频（需结合VACE模块）两种生成模式，为游戏开发、影视预演、直播互动等实时视频生成场景提供了工业级解决方案。

功能特色

Self Forcing在视频生成领域实现三大技术突破：

1. 训练-测试分布对齐

自回归模拟：训练时强制模型以自生成帧为条件（而非真实帧），消除传统Teacher Forcing的暴露偏差
误差累积抑制：通过滚动KV缓存机制将长视频生成误差降低37%（对比基线模型）
动态课程学习：随机采样1-T步去噪步骤训练，增强模型鲁棒性

2. 实时高清生成

极速响应：8步采样生成5秒720P视频仅需1分26秒（RTX 4090）
硬件友好：12GB显存需求使消费级显卡可部署
长视频支持：通过滚动缓存实现无限帧生成，单次推理可外推至10秒

3. 质量-速度平衡

画质提升：消除CausVid的过饱和伪影，运动自然度提升29%
多模态兼容：支持文本/图像双输入模式（图像输入需融合VACE模块）
可控生成：通过LCM采样器实现CFG=1的稳定控制

技术细节

1. 核心架构设计

训练-推理一致性框架

滚动KV缓存：保留最近L帧的token嵌入，缓存满时自动淘汰最早帧
梯度截断：仅对关键去噪步计算梯度，内存消耗降低60%
动态步数：训练时随机采样1-8步去噪过程，增强模型适应性

关键技术组件

训练算法（Algorithm 1）：

阶段一：初始化空缓存，随机选择梯度计算间隔步
阶段二：按动态步数生成帧序列并更新缓存
阶段三：通过分布匹配损失（DMD）优化模型参数

推理优化（Algorithm 2）：

KV缓存复用：避免重复计算历史帧特征
窗口滑动机制：以O(L)复杂度处理长视频
LCM加速：配合CFG=1实现快速稳定采样

损失函数设计：

DMD损失：最小化生成序列与真实分布的Wasserstein距离
时序一致性损失：通过光流约束增强帧间连贯性
对抗损失：判别器引导细节真实性提升

2. 性能表现

基准测试对比（H100 GPU）

指标	CausVid	Self Forcing	提升幅度
生成速度(FPS↑)	17.0	17.0	-
视觉质量(VBench↑)	81.20	84.31	+3.8%
运动自然度(↑)	0.68	0.88	+29%
长视频误差(↓)	1.32	0.83	+37%
显存占用(GB↓)	14.5	12.0	-17%