V-JEPA 2:Meta AI开源的视频理解与机器人规划世界模型

原创 2025-06-13 10:51:05新闻资讯
490

V-JEPA 2是什么

V-JEPA 2(Video Joint Embedding Predictive Architecture 2)是Meta AI研究团队于2025年6月推出的第二代世界模型框架,作为首个基于视频训练的自监督学习系统,它实现了从视频理解到机器人控制的端到端能力跨越。该项目突破性地采用联合嵌入预测架构(JEPA),通过超过100万小时互联网视频的预训练和仅62小时机器人数据的微调,使模型具备物理常识推理零样本规划能力。

区别于传统生成式模型(如Sora、Veo等),V-JEPA 2通过抽象表征预测而非像素级重建,将训练效率提升1.5-6倍。其核心创新在于三阶段架构:基础视觉预训练→语言对齐→动作条件建模,最终在Epic-Kitchens-100动作预测任务上达到39.7的Recall@5(相对提升44%),在PerceptionTest视频问答任务中取得84.0%的准确率。目前代码已以CC-BY-NC许可证开源,为机器人、AR/VR等领域提供首个具备"观察-理解-行动"闭环能力的通用框架。

功能特色

V-JEPA 2在视频理解与机器人控制领域实现三大技术突破:

1. 自监督的物理常识学习

传统模型如NVIDIA Cosmos需要像素级重建,而V-JEPA 2通过掩码潜在预测技术直接学习抽象物理规律:

  • 直觉物理:理解"球掉落后不会消失"、"锅铲移动导致食物位移"等基础物理现象

  • 多尺度建模:输入分辨率从256×256提升至384×384,视频长度从16帧扩展到64帧

  • 高效训练:相比监督学习方法,数据需求减少16倍,能耗降低显著

2. 零样本机器人控制

仅用62小时机器人数据微调即实现跨环境任务执行

  • 视觉子目标引导:通过图像指定目标,成功率65%-80%(未见过的新物体)

  • 模型预测控制:实时规划动作序列并选择最优解,延迟低于300ms

  • 多实验室验证:在Franka机械臂上完成陌生环境的抓取放置任务

3. 多模态任务泛化

通过分层特征对齐实现单一模型多任务适配:

  • 视频问答:与LLM结合后TempCompass准确率76.9%

  • 动作识别:Something-Something v2任务Top-1准确率77.3

  • 物理推理:在IntPhys 2基准中识别物理不合理现象

V-JEPA 2.webp

技术细节

1. 核心架构设计

联合嵌入预测架构(JEPA)

# 伪代码示例
class VJEPA2:
    def __init__(self):
        self.encoder = ViT-G()  # 10亿参数视觉编码器
        self.predictor = Transformer()  # 3亿参数预测器
        
    def forward(self, video, actions=None):
        embeddings = self.encoder(video)  # 提取时空特征
        if actions:  # 动作条件模式
            return self.predictor(embeddings, actions)  
        return embeddings
  • 双组件设计:编码器(提取特征)与预测器(推理演变)解耦

  • 块因果注意力:防止未来信息泄露,确保预测自回归性

  • 动态掩码策略:随机遮挡时空块,强制模型学习上下文推理

三阶段训练流程

  1. 基础预训练

    • 数据:100万小时视频+100万图像(VideoMix22M数据集)

    • 目标:掩码视频预测(随机遮挡30%时空区域)

    • 优化:L1损失函数+梯度检查点(显存节省40%)

  2. 语言对齐

    • 方法:冻结编码器,添加多模态融合层连接LLM

    • 性能:PerceptionTest 84.0%(8B参数规模)

  3. 动作条件建模

    • 数据:Droid数据集62小时机器人操作视频

    • 架构:300M参数Transformer预测器

    • 创新:教师强制损失+Rollout损失联合优化

2. 关键技术突破

抽象表征预测

  • 信息过滤:自动忽略树叶摆动等不可预测细节

  • 语义压缩:将1080P视频压缩为1024维向量

  • 效率优势:计算量仅为生成式模型的1/30

机器人规划实现

  • 视觉MPC:每步生成50个候选动作并评分

  • 子目标分解:长期任务拆解为可执行的视觉里程碑

  • 零样本迁移:实验室A训练模型直接部署至实验室B

3. 评估体系

定量指标对比

任务/基准 V-JEPA 2表现 基线最佳 提升幅度
Epic-Kitchens-100 39.7 R@5 27.5 +44%
Something-Something v2 77.3 Top-1 71.2 +8.6%
机器人成功率 65%-80% 需任务训练 零样本
训练速度 30×Cosmos 基准值 显著

新发布评估基准

  1. IntPhys 2:检测视频中的物理不合理现象(人类95% vs 模型≈随机)

  2. MVPBench:通过最小视频对测试因果理解

  3. CausalVQA:回答"如果...会怎样"类反事实问题

应用场景

V-JEPA 2的技术特性在多个领域产生变革性影响:

1. 智能机器人

  • 家庭服务:根据视觉目标自动规划家务步骤(如整理厨房)

  • 工业装配:理解零件物理特性实现柔性抓取

  • 医疗辅助:预测患者动作轨迹避免碰撞

2. 增强现实

  • 物理模拟:AR眼镜实时预测物体交互效果

  • 操作指导:识别用户动作并提示正确操作流程

  • 场景重建:通过视频片段推断完整3D环境

3. 内容理解

  • 视频摘要:提取关键动作节点生成剧情梗概

  • 异常检测:识别监控视频中违反物理规律的事件

  • 教育工具:可视化物理定律的教学演示

相关链接

  • 论文地址:https://arxiv.org/abs/2506.09985

  • 代码仓库:https://github.com/facebookresearch/vjepa2

  • 技术博客:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks

总结

V-JEPA 2作为Meta AI在"世界模型"路径上的里程碑成果,通过自监督学习从100万小时视频中提取物理规律,仅用62小时机器人数据即实现65%-80%的零样本任务成功率,其创新的JEPA架构将视频理解与动作规划统一在抽象表征空间,在Epic-Kitchens-100等基准上实现44%的性能提升,为机器人、AR等领域提供了首个具备人类式物理直觉的通用框架。

ai模型 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

RoboBrain2.0:北京智源研究院联合北京大学团队开源的具身视觉语言基础模型
RoboBrain2.0是由北京智源研究院联合北京大学团队开发的全球最强开源具身视觉语言基础模型,代表了当前具身智能领域的最前沿技术成果。作为第二代具身大脑大模型,它旨在统一...
2025-07-15 新闻资讯
236

SmolLM:Hugging Face推出的轻量高效多语言长上下文推理模型
SmolLM 是Hugging Face推出的"小而精"语言模型系列,其名称"Smol"源于"Small"的变体,直指其"以小搏大"的核心设计哲学。该项目始于SmolLM2的发布,最初定位为资源受限设备(如...
2025-07-11 新闻资讯
261

DiffuCoder:苹果公司与香港大学联合研发的并行化代码生成模型
DiffuCoder是苹果公司与香港大学联合研发的一款革命性代码生成模型,它突破了传统自回归语言模型(如GPT系列)必须按顺序生成代码的限制,采用掩码扩散模型(Masked Diffusio...
2025-07-10 新闻资讯
303

OmniSVG:全球首个端到端多模态可缩放矢量图形(SVG)生成模型
OmniSVG 是由复旦大学与阶跃星辰(StepFun)联合研发的全球首个端到端多模态可缩放矢量图形(SVG)生成模型,代表了当前AI生成矢量图形领域的最前沿技术突破。作为一项开源项目,...
2025-07-10 新闻资讯
269

MetaStone-S1:融合深度推理与过程评分的反射生成模型
MetaStone-S1 是北京元石科技推出的反射生成式大模型,其核心创新在于提出了"反思型生成范式"(reflective generative paradigm),通过统一框架实现了推理生成与过程评估的协同...
2025-07-09 新闻资讯
300

EarthMind:面向多粒度多传感器地球观测的统一多模态大模型
EarthMind 是由意大利特伦托大学、德国柏林工业大学、慕尼黑工业大学以及保加利亚INSAIT研究院联合开发的开源多模态大模型项目,专门针对地球观测(Earth Observation, EO)数据...
2025-07-07 新闻资讯
263