Genie Envisioner:全球首个面向真实世界机器人操控的开源世界模型平台

原创 2025-08-15 10:13:25新闻资讯
545

一、Genie Envisioner是什么

Genie Envisioner(简称GE)是由智元机器人(AgibotTech)团队开发的全球首个面向真实世界机器人操控的开源世界模型平台,它创新性地将未来帧预测、策略学习与仿真评估整合进以视频生成为核心的闭环架构,首次实现了机器人在同一世界模型中完成从感知到决策再到执行的端到端推理流程。不同于传统"数据收集—模型训练—策略评估"的分阶段开发模式,GE通过构建统一的视频生成世界模型,破解了机器人学习系统长期存在的碎片化架构瓶颈,显著提升了开发效率和系统可扩展性。

该项目基于约3000小时的真实机器人操控视频数据(涵盖超100万条真机记录),建立了从语言指令到视觉空间的直接映射,完整保留了机器人与环境交互的时空动态信息。其核心突破在于采用了视觉中心的世界建模范式——区别于主流VLA(Vision-Language-Action)方法依赖语言抽象,GE直接在视觉空间中建模机器人与环境交互动态,实现了对物理规律的精准捕捉。这一范式带来了显著的性能跃升,包括跨平台泛化效率提升和长时序任务执行突破。

Genie Envisioner作为一个开源平台,已经公开了全部代码、预训练模型及评测工具,包括项目主页、论文和代码仓库。这一举措旨在推动具身智能从"被动执行"向"想象—验证—行动"的范式演进,为机器人操控领域的研究和应用提供了强大的基础平台。

二、功能特色

1. 高效的跨本体泛化能力

Genie Envisioner最突出的功能特色是其卓越的跨平台泛化能力。基于强大的视觉空间预训练,GE-Act动作模型仅需极少量数据即可实现跨平台迁移。在Agilex Cobot Magic和双臂Franka等全新机器人平台上,GE-Act仅使用1小时(约250个演示)的遥操作数据就实现了高质量的任务执行,显著优于需要大规模多本体预训练的π0和GR00T模型。

这种高效的泛化能力源于GE-Base在视觉空间中学习到的通用操控表征。通过直接建模视觉动态而非依赖语言抽象,模型能够捕捉到跨平台共享的底层物理规律和操控模式,从而实现快速适配。在实际测试中,GE-Act在不同机器人平台上的任务执行成功率比传统方法提高了30%以上,大大降低了机器人系统迁移和部署的成本。

2. 长时序任务的精确执行

Genie Envisioner在长时序复杂任务的执行上展现了突破性能力。在折叠纸盒等需要超10步连续操作的任务中,GE-Act成功率高达76%,远超专门针对柔性物体操控优化的π0(48%)以及UniVLA/GR00T(0%)的表现。这种长时序执行能力的提升源于两个关键技术:

首先,视觉空间显式建模时空演化的能力使GE-Act能够"预见"动作的长期后果,从而生成更连贯、更稳定的操控序列。其次,创新的稀疏记忆(sparse memory)模块设计帮助机器人选择性地保留关键历史信息,在长时序任务中保持精确的上下文理解。相比之下,基于语言空间的方法在长时序任务中容易出现误差累积和语义漂移。

3. 三位一体的集成架构

Genie Envisioner采用了GE-Base、GE-Act和GE-Sim三大协同组件构成的集成架构,形成了完整的机器人学习闭环系统:

  • GE-Base作为世界基础模型,提供强大的视觉时空动态建模能力

  • GE-Act作为动作模型,实现从视觉表征到控制指令的高效转换

  • GE-Sim作为仿真器,支持闭环策略评估和数据生成

这种三位一体的设计突破了传统机器人系统中感知、决策与执行分离的局限,实现了从"看"到"想"再到"动"的无缝衔接。特别值得一提的是,三个组件共享相同的视觉表征空间,确保了信息传递的一致性和高效性,这是GE平台能够实现高性能的关键所在。

4. 实时控制与高效评估

Genie Envisioner在实时性方面表现出色。通过创新的"慢-快"异步推理机制(视频DiT以5Hz运行进行单步去噪,动作模型以30Hz运行进行5步去噪),系统在RTX 4090 GPU上实现了200毫秒内完成54步动作推理的实时控制能力。这种设计既保证了视觉预测的准确性,又满足了实时控制对响应速度的要求。

同时,GE-Sim通过分布式集群并行化,可实现每小时数千次的策略rollout评估,为大规模策略优化提供了高效的评估平台。这种高效的评估能力大大缩短了机器人学习算法的开发周期,加速了从实验室研究到实际应用的转化过程。

三、技术细节

1. GE-Base:多视角视频世界基础模型

GE-Base是整个平台的核心基础,采用自回归视频生成框架,将输出分割为离散的视频块(video chunks),每块包含n帧。模型的关键创新在于其多视角生成能力稀疏记忆机制

  • 多视角处理:同时处理来自头部相机和双臂腕部相机的三路视角输入,保持空间一致性并捕捉完整的操控场景

  • 稀疏记忆机制:通过随机采样历史帧来增强长时序推理能力,使模型能够在保持时序连贯性的同时处理长达数分钟的操控任务

训练采用两阶段策略:

  1. 在3-30Hz的多分辨率采样下进行时序适应训练(GE-Base-MR),使模型对不同运动速度具有鲁棒性

  2. 在5Hz固定采样率下进行策略对齐微调(GE-Base-LF),与下游动作建模的时序抽象保持一致

整个训练基于AgiBot-World-Beta数据集的约3000小时、超100万条真机数据,使用32块A100 GPU训练约10天完成。

2. GE-Act:平行流匹配动作模型

GE-Act是一个160M参数的轻量级架构,通过交叉注意力机制将GE-Base的视觉潜在表征转换为可执行的机器人控制指令。其设计特点包括:

  • 与GE-Base的视觉主干平行设计,采用相同网络深度的DiT块但使用更小的隐层维度以提高效率

  • 通过交叉注意力机制充分利用视觉特征中的语义信息,确保生成的动作与任务指令保持一致

  • 采用"慢-快"异步推理模式,视频DiT以5Hz运行,动作模型以30Hz运行,实现实时控制

GE-Act的训练分为三个阶段:

  1. 动作预训练阶段:将视觉表征投射到动作策略空间

  2. 任务特定视频适应阶段:更新视觉生成组件以适应特定任务

  3. 面向特定任务的动作微调:完整模型微调以捕捉细粒度控制动态

3. GE-Sim:层次化动作条件仿真器

GE-Sim将GE-Base的生成能力扩展为动作条件的神经仿真器,通过层次化动作条件机制实现精确的视觉预测。其核心技术包括:

  • Pose2Image条件:将7维末端执行器姿态(位置、姿态、夹爪状态)投影到图像空间,通过相机标定生成空间对齐的姿态图像

  • 运动向量编码:计算连续姿态间的运动增量,编码为运动令牌并通过交叉注意力注入到每个DiT块中

在实际应用中,策略模型生成的动作轨迹被GE-Sim转换为未来的视觉状态,这些生成的视频再反馈给策略模型产生下一步动作,形成完整的仿真闭环。通过分布式集群并行化,GE-Sim可实现每小时数千次的策略rollout评估,为大规模策略优化提供了高效的评估平台。

此外,GE-Sim还能作为数据引擎,通过在不同初始视觉环境下执行相同动作轨迹来生成多样化的训练数据,进一步丰富了系统的学习资源。

4. EWMBench:世界模型评测套件

为了评估面向具身任务的世界模型质量,团队开发了EWMBench评测套件,从场景一致性、轨迹精度、运动动力学一致性到语义对齐等多个维度进行全面评估。在与Kling、OpenSora等先进模型的对比中,GE-Base在多项体现视觉建模质量的关键指标上均取得最优成绩,且与人类判断高度吻合。

EWMBench提供了标准化的评估流程和指标,包括:

  • 视觉保真度评估

  • 动作一致性评估

  • 语言接地评估

  • 物理规律符合度评估

这一评测套件为领域内模型的系统性评估树立了标杆,对于推动机器人操控技术的实用化和规模化具有重要意义。

Genie Envisioner.webp

四、应用场景

1. 工业制造与流水线操作

Genie Envisioner在工业制造领域展现出巨大应用潜力。在"流水线装箱"等工业任务中,GE平台已验证了其精度与鲁棒性突破,将操作成功率提升至远超传统编程的水平。具体应用包括:

  • 产品装配与包装:如纸盒折叠、物品装箱等需要多步骤精确操作的任务

  • 零部件分拣与搬运:利用其跨平台泛化能力快速适配不同生产线需求

  • 质量检测与异常处理:通过视觉预测能力提前发现潜在问题

工业场景对机器人的可靠性和效率要求极高,GE的长时序任务执行能力和实时控制特性正好满足了这些需求。据测试数据显示,在工业环境中应用GE技术可使生产线报废率从5%降至1%以下,交付率从50%提升至90%。

2. 家庭服务与日常辅助

虽然当前系统主要专注于桌面操作任务,使用的是平行爪夹持器,但Genie Envisioner的通用性和适应性为家庭服务机器人提供了新的可能性。潜在应用包括:

  • 家务协助:如餐具整理、衣物折叠等日常家务

  • 老年护理:帮助行动不便者完成拿取物品等简单任务

  • 厨房辅助:基于其"多面手厨师"般的灵活思维应对各种烹饪挑战

随着数据规模的扩大和算法的优化,这种技术有望在不远的将来走入千家万户,成为人们日常生活的智能助手。

3. 机器人研发与教育

作为开源平台,Genie Envisioner为机器人研发与教育提供了强大工具:

  • 算法研究:为学术界提供了统一的基准平台和评估标准

  • 原型开发:加速从概念验证到实际部署的全过程

  • 教育培训:通过可视化仿真降低学习曲线

平台的即插即用特性使其成为机器人领域的"乐高"平台,开发者可以在此基础上研究在线模型修正、引入触觉等多模态世界模型,或探索非Diffusion架构的可行边界。

4. 特殊环境作业

Genie Envisioner的视觉中心建模方法使其在特殊环境作业中具有独特优势:

  • 危险环境:如核电站维护、有毒物质处理等

  • 极端环境:如深海、太空等难以直接编程的场景

  • 无菌环境:如医疗手术室、生物实验室等

在这些场景中,机器人的自主决策能力和环境适应性至关重要,GE的长时序推理和跨平台泛化能力可以大大减少人工干预的需求。

五、相关官方链接

Genie Envisioner项目已全面开源,相关资源可通过以下官方链接获取:

  • 项目主页: https://genie-envisioner.github.io/

  • 论文链接: https://arxiv.org/abs/2508.05635

  • 代码仓库: https://github.com/AgibotTech/Genie-Envisioner

  • 开发平台: https://genie.agibot.com/geniestudio (Genie Studio)

此外,团队还提供了详细的文档和示例代码,帮助开发者快速上手和使用平台的各种功能。Genie Studio作为配套开发环境,为具身智能场景提供了一站式开发体验,包括数据采集、模型训练、仿真评测和模型推理的全链路支持。

六、总结

Genie Envisioner作为行业首个面向真实世界机器人操控的开源世界模型平台,通过创新的视觉中心建模范式,将未来帧预测、策略学习与仿真评估整合进统一的视频生成闭环架构,实现了机器人在同一世界模型中完成从感知到决策再到执行的端到端推理流程。该项目基于3000小时的真实机器人操控数据构建的GE-Base、GE-Act和GE-Sim三大组件,不仅在各种域内任务中表现出强性能,还具有出色的跨形态泛化能力,仅需少量适应数据即可迁移到新型机器人平台。配套的EWMBench评测套件提供了全面的评估体系,确保了系统在视觉真实性、语义对齐和策略一致性方面的可靠性。尽管当前系统在全身运动、灵巧手操作等方面仍有局限,但Genie Envisioner无疑代表了向具有AGI级操作能力的具身AI系统迈出的重要一步,为构建通用、指令驱动的具身智能奠定了坚实基础。

开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
598

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
567

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
577

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
530

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
597

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
539