V-JEPA 2：Meta AI开源的视频理解与机器人规划世界模型

原创 2025-06-13 10:51:05新闻资讯

1226

V-JEPA 2是什么

V-JEPA 2（Video Joint Embedding Predictive Architecture 2）是Meta AI研究团队于2025年6月推出的第二代世界模型框架，作为首个基于视频训练的自监督学习系统，它实现了从视频理解到机器人控制的端到端能力跨越。该项目突破性地采用联合嵌入预测架构（JEPA），通过超过100万小时互联网视频的预训练和仅62小时机器人数据的微调，使模型具备物理常识推理和零样本规划能力。

区别于传统生成式模型（如Sora、Veo等），V-JEPA 2通过抽象表征预测而非像素级重建，将训练效率提升1.5-6倍。其核心创新在于三阶段架构：基础视觉预训练→语言对齐→动作条件建模，最终在Epic-Kitchens-100动作预测任务上达到39.7的Recall@5（相对提升44%），在PerceptionTest视频问答任务中取得84.0%的准确率。目前代码已以CC-BY-NC许可证开源，为机器人、AR/VR等领域提供首个具备"观察-理解-行动"闭环能力的通用框架。

功能特色

V-JEPA 2在视频理解与机器人控制领域实现三大技术突破：

1. 自监督的物理常识学习

传统模型如NVIDIA Cosmos需要像素级重建，而V-JEPA 2通过掩码潜在预测技术直接学习抽象物理规律：

直觉物理：理解"球掉落后不会消失"、"锅铲移动导致食物位移"等基础物理现象
多尺度建模：输入分辨率从256×256提升至384×384，视频长度从16帧扩展到64帧
高效训练：相比监督学习方法，数据需求减少16倍，能耗降低显著

2. 零样本机器人控制

仅用62小时机器人数据微调即实现跨环境任务执行：

视觉子目标引导：通过图像指定目标，成功率65%-80%（未见过的新物体）
模型预测控制：实时规划动作序列并选择最优解，延迟低于300ms
多实验室验证：在Franka机械臂上完成陌生环境的抓取放置任务

3. 多模态任务泛化

通过分层特征对齐实现单一模型多任务适配：

视频问答：与LLM结合后TempCompass准确率76.9%
动作识别：Something-Something v2任务Top-1准确率77.3
物理推理：在IntPhys 2基准中识别物理不合理现象

技术细节

1. 核心架构设计

联合嵌入预测架构（JEPA）

# 伪代码示例
class VJEPA2:
    def __init__(self):
        self.encoder = ViT-G()  # 10亿参数视觉编码器
        self.predictor = Transformer()  # 3亿参数预测器
        
    def forward(self, video, actions=None):
        embeddings = self.encoder(video)  # 提取时空特征
        if actions:  # 动作条件模式
            return self.predictor(embeddings, actions)  
        return embeddings

双组件设计：编码器（提取特征）与预测器（推理演变）解耦
块因果注意力：防止未来信息泄露，确保预测自回归性
动态掩码策略：随机遮挡时空块，强制模型学习上下文推理

三阶段训练流程

基础预训练：

数据：100万小时视频+100万图像（VideoMix22M数据集）
目标：掩码视频预测（随机遮挡30%时空区域）
优化：L1损失函数+梯度检查点（显存节省40%）

语言对齐：

方法：冻结编码器，添加多模态融合层连接LLM
性能：PerceptionTest 84.0%（8B参数规模）

动作条件建模：

数据：Droid数据集62小时机器人操作视频
架构：300M参数Transformer预测器
创新：教师强制损失+Rollout损失联合优化

2. 关键技术突破

抽象表征预测

信息过滤：自动忽略树叶摆动等不可预测细节
语义压缩：将1080P视频压缩为1024维向量
效率优势：计算量仅为生成式模型的1/30

机器人规划实现

视觉MPC：每步生成50个候选动作并评分
子目标分解：长期任务拆解为可执行的视觉里程碑
零样本迁移：实验室A训练模型直接部署至实验室B

3. 评估体系

定量指标对比

任务/基准	V-JEPA 2表现	基线最佳	提升幅度
Epic-Kitchens-100	39.7 R@5	27.5	+44%
Something-Something v2	77.3 Top-1	71.2	+8.6%
机器人成功率	65%-80%	需任务训练	零样本
训练速度	30×Cosmos	基准值	显著

新发布评估基准

IntPhys 2：检测视频中的物理不合理现象（人类95% vs 模型≈随机）
MVPBench：通过最小视频对测试因果理解
CausalVQA：回答"如果...会怎样"类反事实问题

应用场景

V-JEPA 2的技术特性在多个领域产生变革性影响：

1. 智能机器人

家庭服务：根据视觉目标自动规划家务步骤（如整理厨房）
工业装配：理解零件物理特性实现柔性抓取
医疗辅助：预测患者动作轨迹避免碰撞

2. 增强现实

物理模拟：AR眼镜实时预测物体交互效果
操作指导：识别用户动作并提示正确操作流程
场景重建：通过视频片段推断完整3D环境

3. 内容理解

视频摘要：提取关键动作节点生成剧情梗概
异常检测：识别监控视频中违反物理规律的事件
教育工具：可视化物理定律的教学演示

总结

V-JEPA 2作为Meta AI在"世界模型"路径上的里程碑成果，通过自监督学习从100万小时视频中提取物理规律，仅用62小时机器人数据即实现65%-80%的零样本任务成功率，其创新的JEPA架构将视频理解与动作规划统一在抽象表征空间，在Epic-Kitchens-100等基准上实现44%的性能提升，为机器人、AR等领域提供了首个具备人类式物理直觉的通用框架。

ai模型开源项目

本文由@ai资讯 原创发布。

该文章观点仅代表作者本人，不代表本站立场。本站不承担相关法律责任。

如若转载，请注明出处：https://www.zhanid.com/news/vjepa2.html

THE END

ai资讯

关注ai行业发展，专注ai软件推荐。

关注