V-JEPA 2是什么
V-JEPA 2(Video Joint Embedding Predictive Architecture 2)是Meta AI研究团队于2025年6月推出的第二代世界模型框架,作为首个基于视频训练的自监督学习系统,它实现了从视频理解到机器人控制的端到端能力跨越。该项目突破性地采用联合嵌入预测架构(JEPA),通过超过100万小时互联网视频的预训练和仅62小时机器人数据的微调,使模型具备物理常识推理和零样本规划能力。
区别于传统生成式模型(如Sora、Veo等),V-JEPA 2通过抽象表征预测而非像素级重建,将训练效率提升1.5-6倍。其核心创新在于三阶段架构:基础视觉预训练→语言对齐→动作条件建模,最终在Epic-Kitchens-100动作预测任务上达到39.7的Recall@5(相对提升44%),在PerceptionTest视频问答任务中取得84.0%的准确率。目前代码已以CC-BY-NC许可证开源,为机器人、AR/VR等领域提供首个具备"观察-理解-行动"闭环能力的通用框架。
功能特色
V-JEPA 2在视频理解与机器人控制领域实现三大技术突破:
1. 自监督的物理常识学习
传统模型如NVIDIA Cosmos需要像素级重建,而V-JEPA 2通过掩码潜在预测技术直接学习抽象物理规律:
直觉物理:理解"球掉落后不会消失"、"锅铲移动导致食物位移"等基础物理现象
多尺度建模:输入分辨率从256×256提升至384×384,视频长度从16帧扩展到64帧
高效训练:相比监督学习方法,数据需求减少16倍,能耗降低显著
2. 零样本机器人控制
仅用62小时机器人数据微调即实现跨环境任务执行:
视觉子目标引导:通过图像指定目标,成功率65%-80%(未见过的新物体)
模型预测控制:实时规划动作序列并选择最优解,延迟低于300ms
多实验室验证:在Franka机械臂上完成陌生环境的抓取放置任务
3. 多模态任务泛化
通过分层特征对齐实现单一模型多任务适配:
视频问答:与LLM结合后TempCompass准确率76.9%
动作识别:Something-Something v2任务Top-1准确率77.3
物理推理:在IntPhys 2基准中识别物理不合理现象
技术细节
1. 核心架构设计
联合嵌入预测架构(JEPA)
# 伪代码示例 class VJEPA2: def __init__(self): self.encoder = ViT-G() # 10亿参数视觉编码器 self.predictor = Transformer() # 3亿参数预测器 def forward(self, video, actions=None): embeddings = self.encoder(video) # 提取时空特征 if actions: # 动作条件模式 return self.predictor(embeddings, actions) return embeddings
双组件设计:编码器(提取特征)与预测器(推理演变)解耦
块因果注意力:防止未来信息泄露,确保预测自回归性
动态掩码策略:随机遮挡时空块,强制模型学习上下文推理
三阶段训练流程
基础预训练:
数据:100万小时视频+100万图像(VideoMix22M数据集)
目标:掩码视频预测(随机遮挡30%时空区域)
优化:L1损失函数+梯度检查点(显存节省40%)
语言对齐:
方法:冻结编码器,添加多模态融合层连接LLM
性能:PerceptionTest 84.0%(8B参数规模)
动作条件建模:
数据:Droid数据集62小时机器人操作视频
架构:300M参数Transformer预测器
创新:教师强制损失+Rollout损失联合优化
2. 关键技术突破
抽象表征预测
信息过滤:自动忽略树叶摆动等不可预测细节
语义压缩:将1080P视频压缩为1024维向量
效率优势:计算量仅为生成式模型的1/30
机器人规划实现
视觉MPC:每步生成50个候选动作并评分
子目标分解:长期任务拆解为可执行的视觉里程碑
零样本迁移:实验室A训练模型直接部署至实验室B
3. 评估体系
定量指标对比
任务/基准 | V-JEPA 2表现 | 基线最佳 | 提升幅度 |
---|---|---|---|
Epic-Kitchens-100 | 39.7 R@5 | 27.5 | +44% |
Something-Something v2 | 77.3 Top-1 | 71.2 | +8.6% |
机器人成功率 | 65%-80% | 需任务训练 | 零样本 |
训练速度 | 30×Cosmos | 基准值 | 显著 |
新发布评估基准
IntPhys 2:检测视频中的物理不合理现象(人类95% vs 模型≈随机)
MVPBench:通过最小视频对测试因果理解
CausalVQA:回答"如果...会怎样"类反事实问题
应用场景
V-JEPA 2的技术特性在多个领域产生变革性影响:
1. 智能机器人
家庭服务:根据视觉目标自动规划家务步骤(如整理厨房)
工业装配:理解零件物理特性实现柔性抓取
医疗辅助:预测患者动作轨迹避免碰撞
2. 增强现实
物理模拟:AR眼镜实时预测物体交互效果
操作指导:识别用户动作并提示正确操作流程
场景重建:通过视频片段推断完整3D环境
3. 内容理解
视频摘要:提取关键动作节点生成剧情梗概
异常检测:识别监控视频中违反物理规律的事件
教育工具:可视化物理定律的教学演示
相关链接
论文地址:https://arxiv.org/abs/2506.09985
代码仓库:https://github.com/facebookresearch/vjepa2
技术博客:https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks
总结
V-JEPA 2作为Meta AI在"世界模型"路径上的里程碑成果,通过自监督学习从100万小时视频中提取物理规律,仅用62小时机器人数据即实现65%-80%的零样本任务成功率,其创新的JEPA架构将视频理解与动作规划统一在抽象表征空间,在Epic-Kitchens-100等基准上实现44%的性能提升,为机器人、AR等领域提供了首个具备人类式物理直觉的通用框架。
本文由@ai资讯 原创发布。
该文章观点仅代表作者本人,不代表本站立场。本站不承担相关法律责任。
如若转载,请注明出处:https://www.zhanid.com/news/vjepa2.html