V-JEPA 2:Meta AI开源的视频理解与机器人规划世界模型

原创 2025-06-13 10:51:05新闻资讯
884

V-JEPA 2是什么

V-JEPA 2(Video Joint Embedding Predictive Architecture 2)是Meta AI研究团队于2025年6月推出的第二代世界模型框架,作为首个基于视频训练的自监督学习系统,它实现了从视频理解到机器人控制的端到端能力跨越。该项目突破性地采用联合嵌入预测架构(JEPA),通过超过100万小时互联网视频的预训练和仅62小时机器人数据的微调,使模型具备物理常识推理零样本规划能力。

区别于传统生成式模型(如Sora、Veo等),V-JEPA 2通过抽象表征预测而非像素级重建,将训练效率提升1.5-6倍。其核心创新在于三阶段架构:基础视觉预训练→语言对齐→动作条件建模,最终在Epic-Kitchens-100动作预测任务上达到39.7的Recall@5(相对提升44%),在PerceptionTest视频问答任务中取得84.0%的准确率。目前代码已以CC-BY-NC许可证开源,为机器人、AR/VR等领域提供首个具备"观察-理解-行动"闭环能力的通用框架。

功能特色

V-JEPA 2在视频理解与机器人控制领域实现三大技术突破:

1. 自监督的物理常识学习

传统模型如NVIDIA Cosmos需要像素级重建,而V-JEPA 2通过掩码潜在预测技术直接学习抽象物理规律:

  • 直觉物理:理解"球掉落后不会消失"、"锅铲移动导致食物位移"等基础物理现象

  • 多尺度建模:输入分辨率从256×256提升至384×384,视频长度从16帧扩展到64帧

  • 高效训练:相比监督学习方法,数据需求减少16倍,能耗降低显著

2. 零样本机器人控制

仅用62小时机器人数据微调即实现跨环境任务执行

  • 视觉子目标引导:通过图像指定目标,成功率65%-80%(未见过的新物体)

  • 模型预测控制:实时规划动作序列并选择最优解,延迟低于300ms

  • 多实验室验证:在Franka机械臂上完成陌生环境的抓取放置任务

3. 多模态任务泛化

通过分层特征对齐实现单一模型多任务适配:

  • 视频问答:与LLM结合后TempCompass准确率76.9%

  • 动作识别:Something-Something v2任务Top-1准确率77.3

  • 物理推理:在IntPhys 2基准中识别物理不合理现象

V-JEPA 2.webp

技术细节

1. 核心架构设计

联合嵌入预测架构(JEPA)

# 伪代码示例
class VJEPA2:
    def __init__(self):
        self.encoder = ViT-G()  # 10亿参数视觉编码器
        self.predictor = Transformer()  # 3亿参数预测器
        
    def forward(self, video, actions=None):
        embeddings = self.encoder(video)  # 提取时空特征
        if actions:  # 动作条件模式
            return self.predictor(embeddings, actions)  
        return embeddings
  • 双组件设计:编码器(提取特征)与预测器(推理演变)解耦

  • 块因果注意力:防止未来信息泄露,确保预测自回归性

  • 动态掩码策略:随机遮挡时空块,强制模型学习上下文推理

三阶段训练流程

  1. 基础预训练

    • 数据:100万小时视频+100万图像(VideoMix22M数据集)

    • 目标:掩码视频预测(随机遮挡30%时空区域)

    • 优化:L1损失函数+梯度检查点(显存节省40%)

  2. 语言对齐

    • 方法:冻结编码器,添加多模态融合层连接LLM

    • 性能:PerceptionTest 84.0%(8B参数规模)

  3. 动作条件建模

    • 数据:Droid数据集62小时机器人操作视频

    • 架构:300M参数Transformer预测器

    • 创新:教师强制损失+Rollout损失联合优化

2. 关键技术突破

抽象表征预测

  • 信息过滤:自动忽略树叶摆动等不可预测细节

  • 语义压缩:将1080P视频压缩为1024维向量

  • 效率优势:计算量仅为生成式模型的1/30

机器人规划实现

  • 视觉MPC:每步生成50个候选动作并评分

  • 子目标分解:长期任务拆解为可执行的视觉里程碑

  • 零样本迁移:实验室A训练模型直接部署至实验室B

3. 评估体系

定量指标对比

任务/基准 V-JEPA 2表现 基线最佳 提升幅度
Epic-Kitchens-100 39.7 R@5 27.5 +44%
Something-Something v2 77.3 Top-1 71.2 +8.6%
机器人成功率 65%-80% 需任务训练 零样本
训练速度 30×Cosmos 基准值 显著

新发布评估基准

  1. IntPhys 2:检测视频中的物理不合理现象(人类95% vs 模型≈随机)

  2. MVPBench:通过最小视频对测试因果理解

  3. CausalVQA:回答"如果...会怎样"类反事实问题

应用场景

V-JEPA 2的技术特性在多个领域产生变革性影响:

1. 智能机器人

  • 家庭服务:根据视觉目标自动规划家务步骤(如整理厨房)

  • 工业装配:理解零件物理特性实现柔性抓取

  • 医疗辅助:预测患者动作轨迹避免碰撞

2. 增强现实

  • 物理模拟:AR眼镜实时预测物体交互效果

  • 操作指导:识别用户动作并提示正确操作流程

  • 场景重建:通过视频片段推断完整3D环境

3. 内容理解

  • 视频摘要:提取关键动作节点生成剧情梗概

  • 异常检测:识别监控视频中违反物理规律的事件

  • 教育工具:可视化物理定律的教学演示

相关链接

  • 论文地址:https://arxiv.org/abs/2506.09985

  • 代码仓库:https://github.com/facebookresearch/vjepa2

  • 技术博客:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks

总结

V-JEPA 2作为Meta AI在"世界模型"路径上的里程碑成果,通过自监督学习从100万小时视频中提取物理规律,仅用62小时机器人数据即实现65%-80%的零样本任务成功率,其创新的JEPA架构将视频理解与动作规划统一在抽象表征空间,在Epic-Kitchens-100等基准上实现44%的性能提升,为机器人、AR等领域提供了首个具备人类式物理直觉的通用框架。

ai模型 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

HunyuanVideo-Foley:腾讯混元团队开源的一款端到端视频音效生成模型
HunyuanVideo-Foley 是腾讯混元团队研发并开源的一款端到端视频音效生成模型,其核心使命是通过人工智能技术,为无声视频自动生成高质量、高同步的音效与背景音乐,打造真正意...
2025-08-29 新闻资讯
764

Seed-OSS:原生512K长上下文与可控推理的开源大语言模型
一、Seed-OSS是什么?Seed-OSS是字节跳动Seed团队开源的大语言模型系列,标志着字节跳动首次进军开源大模型赛道。这一系列模型以其360亿参数的规模、原生512K超长上下文支持...
2025-08-22 新闻资讯
760

RynnEC:阿里达摩院开源的一款专为具身智能设计的世界理解模型
RynnEC是阿里巴巴达摩院开源的一款专为具身智能设计的世界理解模型,属于多模态大语言模型(MLLM)范畴。其核心目标是赋予AI系统对物理世界的深度理解能力,使机器人或智能体...
2025-08-13 新闻资讯
668

RynnVLA-001:基于视频生成与人体轨迹预训练的视觉-语言-动作模型
RynnVLA-001是阿里巴巴达摩院自主研发并开源的视觉-语言-动作(Vision-Language-Action, VLA)模型,专为具身智能(Embodied AI)场景设计。该项目通过大规模第一人称视角视频...
2025-08-13 新闻资讯
720

GPT-OSS:OpenAI开源的高效稀疏激活大语言模型
GPT-OSS(Open-Source Series)是OpenAI发布的两款开源大型语言模型系列,包括GPT-OSS-120B和GPT-OSS-20B两个版本。这是OpenAI自2019年发布GPT-2以来,时隔6年首次回归开源阵...
2025-08-07 新闻资讯
715

Qwen-Image:阿里巴巴通义千问开源的首个图像生成基础模型
Qwen-Image 是阿里巴巴通义千问团队开源的首个图像生成基础模型,属于Qwen系列的重要成员。作为一个200亿参数的多模态扩散变换器(MMDiT)模型,它在复杂文本渲染和精确图像编...
2025-08-06 新闻资讯
668