Vid2World：清华与重大联合研发的交互式世界模型转换框架

原创 2025-05-27 11:02:14新闻资讯

382

一、Vid2World是什么

Vid2World是由清华大学与重庆大学联合开发的开源世界模型转换框架，其突破性在于首次实现了将非因果视频扩散模型转化为自回归交互式世界模型的技术路径。在机器人操作和游戏模拟任务中FVD指标超越传统方法65%，标志着视频生成模型向交互式决策支持系统的范式转变。

当前AI领域面临的核心矛盾是：高质量视频生成模型（如扩散模型）与交互式决策系统（如世界模型）的技术割裂。前者能生成逼真动态但缺乏交互能力，后者支持动作控制却受限于生成质量。Vid2World通过创新的因果化改造技术和动作条件引导机制，在保留预训练模型视觉先验的同时，赋予其响应动作输入、持续自回归生成的能力。该系统仅需单段预训练视频扩散模型（如Stable Video Diffusion），经结构调整后即可输出1024×1024分辨率、30FPS的交互式预测序列，在RTX 4090显卡上推理延迟低于50ms。

二、功能特色解析

2.1 因果化生成革命

时间维度重构：将双向注意力机制改造为因果掩码模式，使每一帧生成仅依赖历史信息。在CS:GO游戏测试中，相比传统世界模型，其生成序列的时间连贯性提升72%。
混合权重迁移：针对时间卷积层提出"部分权重保留+均值初始化"策略，解决非因果卷积转换后的特征错位问题。消融实验显示该技术使动作一致性指标提升58%。
噪声独立调度：采用Diffusion Forcing技术对各帧独立采样噪声水平，支持无限时长的自回归生成。实测可连续生成1000+帧无质量衰减。

2.2 动作条件控制

分层动作注入：通过轻量级嵌入层将动作信号编码为潜在空间向量，支持关节角度（机器人）、键盘输入（游戏）等多模态控制信号。某机械臂抓取任务测试显示动作响应延迟仅8ms。
动态丢弃训练：引入随机动作丢弃（p=0.3）增强模型鲁棒性，在输入动作缺失时仍能生成合理预测。在VR环境中用户操作中断情况下，崩溃率比基线低83%。
反事实生成：同一初始状态配合不同动作序列可生成 divergent 的未来轨迹。在网球游戏测试中，模型成功预测了发球/截击导致的5种不同球路变化。

2.3 生产级部署能力

多引擎支持：提供Unity Asset Package、Omniverse Extension和ROS节点三种部署形式，适配不同开发管线。
实时性能优化：通过TensorRT加速实现4K@30FPS实时渲染，Jetson Orin实测功耗低于15W。
领域适配工具：包含机器人（Franka）、游戏（UE5）、自动驾驶（Carla）三个垂直领域的预配置参数模板。

三、技术架构详解

3.1 系统流程设计

Vid2World的转换流程包含两大阶段（如图1所示）：

阶段一：模型因果化

架构改造：

时间注意力层：应用因果掩码限制信息流方向
时间卷积层：采用混合权重迁移公式：
$$w_{new}[i,j]=\begin{cases} w_{orig}[i,j] & \text{if }i\geq j\\ \frac{1}{k}\sum_{m=1}^k w_{orig}[m,j] & \text{otherwise} \end{cases}$$
其中k为原始卷积核尺寸

训练目标调整：

独立噪声采样：$\kappa_t\sim U(0,K),\forall t\in[1,T]$
动作丢弃正则：$a_t=\begin{cases} a_t & \text{w.p. }1-p_{drop}\\ \emptyset & \text{w.p. }p_{drop} \end{cases}$

阶段二：动作条件化

信号编码：动作序列$a_{1:T}$经MLP编码为潜在向量$h_a\in R^{512}$
交叉注入：在DiT块中新增动作条件分支：
$$Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d}}+B_{a})V$$
其中$B_a$为动作偏置矩阵
多任务训练：联合优化视频重建损失$\mathcal{L}_{rec}$和动作预测损失$\mathcal{L}_{act}$