EmbodiedGen:面向具身智能的交互式3D世界生成引擎

原创 2025-06-26 10:53:30新闻资讯
547

一、EmbodiedGen是什么?

EmbodiedGen是由地平线机器人(Horizon Robotics)联合GigaAI、3D-Robotics、上海交通大学、南开大学等多家顶尖机构推出的开源生成式3D世界引擎,专为具身智能(Embodied AI)研发设计。该项目通过生成物理真实、可交互的3D环境,解决了机器人训练中的核心痛点:传统虚拟环境创建依赖人工3D建模,成本高昂且缺乏物理真实感,导致机器人从仿真到现实的迁移效率低下。

EmbodiedGen的核心创新在于将生成式AI与物理引擎深度融合,仅需单张图片或文字描述,即可自动生成具备真实物理属性(如重量、摩擦系数、尺寸)的3D物体与场景,支持静态物体、关节物体(如可开关的抽屉)及多样化背景(厨房、办公室等)。其生成的资产采用统一机器人描述格式(URDF),可直接导入主流仿真平台(如OpenAI Gym、Isaac Lab、MuJoCo、SAPIEN),实现从生成到仿真的无缝闭环。

二、功能特色

1. 多模态3D生成能力

  • 图像→3D(Image-to-3D):上传物体照片,自动重建带物理属性的3D模型,并补全不可见部分(如桌子背面)。

  • 文本→3D(Text-to-3D):输入自然语言描述(如“带把手的陶瓷杯”),生成可操作物体,支持风格化编辑(如替换颜色、添加图案)。

  • 场景生成:根据“现代客厅”等描述,创建布局合理的完整场景,支持动态调整物体位置。

2. 物理引擎无缝兼容

所有生成的资产默认输出为URDF格式,无需额外转换即可直接用于物理仿真。例如,生成的微波炉模型会包含真实的门铰链扭矩参数,使机器人训练更贴近现实。

3. 自动化质量检测系统

通过三重AI质检确保生成资产可用性:

  • 美学检查员(AestheticChecker):评估纹理细节丰富度,过滤“塑料感”模型;

  • 分割检查员(ImageSegChecker):结合GPT-4o优化前景提取,确保主体清晰;

  • 几何检查员(MeshGeoChecker):验证结构合理性(如椅子是否稳定)。

4. 关节物体与动态交互

支持生成带活动部件的物体(如门铰链、抽屉滑轨),为机器人操作技能训练提供关键环境。例如,生成的可开关微波炉模型可用于训练机械臂执行“加热食物”任务。

5. 纹理优化与风格编辑

采用多视角RGB回投影技术消除传统3D生成的“塑料感”:

  • 移除光照效果,统一各视角亮度;

  • 对每个视角独立做4倍超分辨率(提升至2K);

  • 基于视角置信度加权融合,优先保留垂直视角细节。

三、技术细节

1. 物理属性恢复

通过GPT-4o/Qwen构建“物理专家代理”,从单张图像推断真实尺寸与物理参数:

  • 尺度恢复:结合上下文区分物体类别(如玩具老虎 vs. 真实老虎),估算摩擦系数与质量;

  • 水密性(Watertight)几何:确保模型完全闭合,满足碰撞检测需求。

2. 生成流程优化

  • 文字→3D两阶段设计

    1. 用Kolors模型将文本生成高质量图片;

    2. 输入统一图片→3D服务生成资产,比端到端方案(如Trellis-text-xlarge)可控性更强。

  • 物理约束验证:自动检测物体尺寸合理性(如避免生成巨型的咖啡杯)。

3. 核心算法创新

  • RoboSplatter模块:引入3D高斯溅射(3DGS)技术,在提升视觉真实感的同时降低计算开销;

  • 纹理反投影优化:通过几何感知的纹理合成解决多视角不一致问题。

EmbodiedGen.webp

四、应用场景

1. 机器人仿真训练

为工业机器人提供低成本、高拟真度的训练环境。例如生成带精密铰链的储物柜,训练机械臂开门/放置物品的技能。

2. 医疗模拟与康复

生成手术台3D场景,供达芬奇手术系统进行0.1毫米级精度的虚拟操作训练;或创建个性化康复环境,适配患者行动能力。

3. 自动驾驶仿真

动态生成极端天气道路、复杂交通场景,替代实车路测的高风险环节。

4. 教育与文旅

教师输入“宋代书房”,一键生成历史场景教具;博物馆快速构建文物互动展厅。

5. 工业4.0柔性生产

结合协作机器人(如库卡LBR iiwa),生成定制化生产线布局,实时验证设备协作逻辑。

五、官方资源链接

  • 项目主页:https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html

  • GitHub代码:https://github.com/HorizonRobotics/EmbodiedGen

  • 论文地址:https://arxiv.org/abs/2506.10600

  • 模型地址:https://huggingface.co/collections/HorizonRobotics/embodiedgen-684c3ec6cfd908bb1d6069bf

总结

EmbodiedGen通过生成式AI与物理引擎的深度融合,以低成本、高效率的方式生成物理真实且可交互的3D世界,解决了具身智能领域的数据荒漠问题。其模块化设计、多模态生成能力与自动化质检体系,为机器人仿真、医疗模拟、自动驾驶等场景提供了高保真的虚拟训练环境,显著降低了从仿真到现实的迁移成本。

ai框架 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
597

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
566

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
576

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
530

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
596

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
539