VLN-R1：基于第一人称连续导航的具身智能框架

原创 2025-06-30 10:55:47新闻资讯

526

一、VLN-R1是什么

VLN-R1是由香港大学与上海AI Lab联合提出的视觉语言导航（Vision-Language Navigation, VLN）开源框架，其核心目标是实现智能体通过自然语言指令在复杂环境中完成连续动作的自主导航。与传统VLN系统依赖离散地图和预定义节点不同，VLN-R1通过端到端的第一人称视频流处理，直接将语言指令转化为连续动作（如前进、转向、停止），无需全局地图支持，从而更贴近人类在真实环境中的导航行为。

该框架基于大规模视觉语言模型（LVLM）（如Qwen2-VL系列），结合两阶段训练策略（监督微调SFT+强化微调RFT）和创新的时间衰减奖励机制，显著提升了模型在动态环境中的适应能力。在VLN-CE基准测试中，VLN-R1仅用20亿参数的模型（Qwen2-VL-2B）即超越传统7B模型的性能，展现了“小而美”的高效特性。

二、功能特色

1. 连续动作输出与第一人称视角融合

传统VLN系统通常将环境抽象为离散拓扑图（如房间入口、走廊拐角等节点），限制了智能体对动态障碍物或未标注细节的响应能力。VLN-R1彻底摒弃了这一设计，通过第一人称视频流实时感知环境，直接输出连续动作指令（如“前进25厘米”“左转30°”），实现类人级的灵活避障和路径调整。

2. 两阶段训练与时间衰减奖励机制

VLN-R1的训练流程分为两个关键阶段：

监督微调（SFT）：通过专家演示数据（如VLN-Ego数据集）学习基础动作序列的文本表达，例如看到“前方有门”时输出“FORWARD”动作。
强化微调（RFT）：引入**分组对比优化（GRPO）和时间衰减奖励（TDR）**机制。GRPO通过对比同一场景下的多种动作方案（如8种走法），选择最优路径并优化策略；TDR则赋予近期动作更高奖励权重，确保智能体优先处理眼前关键动作（如避障），再规划远期目标，模拟人类“先看脚下，再望远方”的决策逻辑。

3. 数据效率与跨域迁移能力

VLN-R1在长距离导航任务中展现了惊人的数据效率。例如，在R2R数据集上预训练后，仅用1万条RxR样本进行RFT，其性能即超越完整RxR数据训练的模型。这种“跨域迁移”能力使其在资源受限场景（如家用机器人）中具备显著优势。

4. 长短时记忆采样策略

为解决视觉序列处理中的“近期信息过载、长期记忆丢失”问题，VLN-R1提出动态记忆采样：高频采集近期M步的短期记忆（如当前沙发位置），低频抽取长期记忆（如初始走廊方向）。这种“远近结合”的策略平衡了实时响应与全局路径规划的需求。

三、技术细节

1. 模型架构与训练框架

VLN-R1以Qwen2-VL模型为基础，采用第一人称视频流作为输入，输出六步连续动作序列（如[A. 前进, B. 左转, C. 右转, D. 停止]）。其训练框架包含以下核心组件：

VLN-Ego数据集：包含63万R2R和120万RxR样本，每个样本由语言指令、历史视觉记忆、当前观测及未来6步动作标签组成，完全基于第一人称视角，避免全局地图的“作弊”信息。
强化学习优化：通过Ray分布式架构实现高效的GPU资源调度，结合Megatron-Core和vLLM加速训练，支持大规模并行化。