VLN-R1:基于第一人称连续导航的具身智能框架

原创 2025-06-30 10:55:47新闻资讯
526

一、VLN-R1是什么

VLN-R1是由香港大学与上海AI Lab联合提出的视觉语言导航(Vision-Language Navigation, VLN)开源框架,其核心目标是实现智能体通过自然语言指令在复杂环境中完成连续动作的自主导航。与传统VLN系统依赖离散地图和预定义节点不同,VLN-R1通过端到端的第一人称视频流处理,直接将语言指令转化为连续动作(如前进、转向、停止),无需全局地图支持,从而更贴近人类在真实环境中的导航行为。

该框架基于大规模视觉语言模型(LVLM)(如Qwen2-VL系列),结合两阶段训练策略(监督微调SFT+强化微调RFT)和创新的时间衰减奖励机制,显著提升了模型在动态环境中的适应能力。在VLN-CE基准测试中,VLN-R1仅用20亿参数的模型(Qwen2-VL-2B)即超越传统7B模型的性能,展现了“小而美”的高效特性。

二、功能特色

1. 连续动作输出与第一人称视角融合

传统VLN系统通常将环境抽象为离散拓扑图(如房间入口、走廊拐角等节点),限制了智能体对动态障碍物或未标注细节的响应能力。VLN-R1彻底摒弃了这一设计,通过第一人称视频流实时感知环境,直接输出连续动作指令(如“前进25厘米”“左转30°”),实现类人级的灵活避障和路径调整。

2. 两阶段训练与时间衰减奖励机制

VLN-R1的训练流程分为两个关键阶段:

  • 监督微调(SFT):通过专家演示数据(如VLN-Ego数据集)学习基础动作序列的文本表达,例如看到“前方有门”时输出“FORWARD”动作。

  • 强化微调(RFT):引入**分组对比优化(GRPO)时间衰减奖励(TDR)**机制。GRPO通过对比同一场景下的多种动作方案(如8种走法),选择最优路径并优化策略;TDR则赋予近期动作更高奖励权重,确保智能体优先处理眼前关键动作(如避障),再规划远期目标,模拟人类“先看脚下,再望远方”的决策逻辑。

3. 数据效率与跨域迁移能力

VLN-R1在长距离导航任务中展现了惊人的数据效率。例如,在R2R数据集上预训练后,仅用1万条RxR样本进行RFT,其性能即超越完整RxR数据训练的模型。这种“跨域迁移”能力使其在资源受限场景(如家用机器人)中具备显著优势。

4. 长短时记忆采样策略

为解决视觉序列处理中的“近期信息过载、长期记忆丢失”问题,VLN-R1提出动态记忆采样:高频采集近期M步的短期记忆(如当前沙发位置),低频抽取长期记忆(如初始走廊方向)。这种“远近结合”的策略平衡了实时响应与全局路径规划的需求。

VLN-R1.webp

三、技术细节

1. 模型架构与训练框架

VLN-R1以Qwen2-VL模型为基础,采用第一人称视频流作为输入,输出六步连续动作序列(如[A. 前进, B. 左转, C. 右转, D. 停止])。其训练框架包含以下核心组件:

  • VLN-Ego数据集:包含63万R2R和120万RxR样本,每个样本由语言指令、历史视觉记忆、当前观测及未来6步动作标签组成,完全基于第一人称视角,避免全局地图的“作弊”信息。

  • 强化学习优化:通过Ray分布式架构实现高效的GPU资源调度,结合Megatron-Core和vLLM加速训练,支持大规模并行化。

2. 性能表现

在VLN-CE基准测试中,VLN-R1的关键指标如下(Val-Unseen环境):

  • R2R任务:Qwen2-VL-2B模型经RFT后,成功率(SR)达25.6%,路径长度加权成功率(SPL)为20.5%,超越7B模型的SFT结果(SR 21.2%)。

  • RxR任务:2B模型在跨语言指令下的SR为21.4%,接近7B模型(22.3%),验证了小模型的潜力。

3. 与传统方法的对比

方法SR↑SPL↑NE↓
传统离散规划(LAW*) 8.0 8.0 10.9
VLN-R1(Qwen2-VL-2B) 21.4 15.5 10.2

数据表明,VLN-R1在连续环境中的成功率是传统方法的2.5倍以上。

四、应用场景

1. 家用服务机器人

VLN-R1可应用于家庭场景,例如执行指令“去厨房查看冰箱里的牛奶剩余量”,并在移动过程中动态避开宠物或家具。

2. 工业物流与仓储

在工厂环境中,智能体可根据指令“将零件运送到A3货架”自主导航,适应动态变化的货架布局。

3. 无障碍辅助技术

为视障人士提供语音指令导航(如“带我到诊所前台”),结合实时避障功能提升安全性。

五、官方资源链接

  • 项目主页:https://vlnr1.github.io/

  • 代码仓库:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1

  • 论文地址:https://arxiv.org/abs/2506.17221

六、总结

VLN-R1通过端到端的连续动作输出、两阶段训练策略和时间衰减奖励机制,实现了类人级别的具身智能导航,其小模型高效性和跨域迁移能力为实际应用提供了可行性。开源框架与数据集的开放进一步推动了视觉语言导航技术的标准化发展,为家庭服务、工业物流等场景的智能体落地奠定了技术基础。

ai框架 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
606

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
576

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
580

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
536

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
605

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
543