CombatVLA：专为3D动作游戏设计的视觉-语言-动作模型开源框架

原创 2025-08-20 10:11:38新闻资讯

544

CombatVLA是什么

CombatVLA 是由阿里巴巴淘天集团未来生活实验室团队开发的一款高效视觉-语言-动作模型(Vision-Language-Action Model, VLA)，专为3D动作角色扮演游戏(ARPG)中的战斗任务优化设计。CombatVLA的核心目标是解决复杂3D游戏环境中实时决策的三大挑战：秒级响应、高分辨率感知和动态战术推理。该项目已被计算机视觉顶级会议ICCV 2025接收，并在2025年8月19日正式发布。

作为一个开源项目，CombatVLA提供了完整的工具链，包括动作跟踪器、训练数据集、基准测试、模型权重、训练代码和框架实现，项目基于3B参数规模的轻量级架构，在《黑神话：悟空》和《只狼：影逝二度》等3D动作游戏中表现出色，不仅超越了GPT-4o等大型模型，还以82.3%的成功率超过了人类玩家的65.4%。

CombatVLA的创新之处在于将"动作思维链"(Action-of-Thought, AoT)概念引入游戏AI领域，通过结合语义解释与动作执行，实现了类似人类的条件反射式智能反应。与传统的强化学习方法或基于超大语言模型的方案相比，CombatVLA在保持高理解能力的同时，实现了50倍的推理加速，单次推理延迟仅1.85秒，远低于VARP框架的90.23秒。

功能特色

1. 革命性的战斗理解与执行能力

CombatVLA在专门设计的战斗理解基准CUBench上取得了63.61的平均分，比第二名Gemini-2.0-flash高出5.71分，较原始基座Qwen2.5-VL-3B高出7.74分。CUBench测试包含914个样本，评估模型在信息收集(39.4%)、理解(22.3%)和推理(38.3%)三个维度的能力。在实际游戏测试中，团队将13个战斗任务分为简单、中等、困难和极难四个等级，CombatVLA仅在极难任务(第9和第10任务)上进行微调，却在所有难度任务上展现出强大的零样本(zero-shot)泛化能力。

项目展示的典型案例包括：

血量检测与自动治疗：当角色血量较低(通过屏幕左下角白条识别)时，模型会先控制角色后撤到安全位置(按住's'键3.3秒)，然后按'r'键回血。
技能连招执行：当定身技能可用时，模型会按下'1'键定身敌人，并立即发动连续轻攻击(鼠标左键点击5次)。
精准闪避与反击：在敌人攻击前瞬间按下空格键翻滚躲避，随后抓住时机进行蓄力重击(按住鼠标右键0.6秒)。
跨游戏适应：在《只狼》中自动将翻滚动作转换为格挡防御，并成功执行忍杀(同时按空格和鼠标左键)。

2. 突破性的推理速度优化

CombatVLA采用独创的"截断AoT"策略，通过特殊的⟨TRUNC⟩标记实现推理加速。在生成每个新输出token时进行监控，一旦检测到⟨TRUNC⟩标记立即停止，将之前内容解析为动作。这一策略将平均token长度从116.57锐减至43.10，结合三级渐进式学习，最终实现50倍的加速。

模型的三级渐进式学习框架包括：

粗粒度视频级AoT调优：让模型初步理解战斗环境
细粒度帧级AoT调优：提升模型的秒级反应能力
帧级截断AoT调优：引入⟨TRUNC⟩标记加速推理

3. 轻量级架构与高效部署

尽管性能强大，CombatVLA仅采用3B参数规模，远小于GPT-4o等通用大模型。这使得它能够在消费级硬件(4块NVIDIA H20 GPU)上高效运行，学习率为1e-5，batch size为1。模型基于Qwen2.5-VL-3B进行全参数微调，保持了基座模型的通用能力，同时在战斗任务上实现专项优化。

动作执行框架采用轻量级Python工具实现，包括：

实时游戏画面帧采样：去除冗余视觉信息，降低推理负担
动作转换模块：利用pyautogui库将动作解析为Python代码，自动完成键盘鼠标操作
自适应动作加权：根据不同动作的重要性分配权重(如治疗键"r"的权重是移动键"w"的10倍)

4. 全面的开源生态

CombatVLA项目不仅开源了模型代码，还提供了完整的工具链和资源：

动作跟踪器：轻量级Python工具，后台记录玩家操作与游戏画面，构建高质量训练数据
AoT数据集：包含25k游戏截图和5k高质量AoT数据，涵盖视频级、帧级和截断式三种格式
CUBench基准：包含914个测试样本的标准化评估体系
训练代码与框架实现：支持从零开始训练或基于预训练权重微调

技术细节

1. 核心架构设计

CombatVLA采用视觉-语言-动作(VLA)的三模态架构，将视觉感知、语义理解和动作控制整合到统一框架中。如图7所示的VLA架构代表了当前领先VLA系统(如RT-2、OpenVLA、CLIP-RT等)的典型设计，采用基于Transformer的视觉和语言骨干网络，并通过跨模态注意力机制进行融合。

具体组件包括：

视觉编码器：基于Qwen2 VIT变体，能够建模长距离空间依赖和高级视觉语义
语言编码器：继承自Qwen2.5-VL-3B的预训练语言理解能力
动作解码器：采用扩散策略生成动作嵌入，转换为连续控制信号

2. AoT数据格式

Action-of-Thought(AoT)是CombatVLA的核心创新，灵感来源于Chain-of-Thought(CoT)提示技术。与传统动作标注不同，AoT不仅记录按键序列，还包含战术解释(如"敌人即将释放范围技，需后撤三步")，让模型学会条件反射式的智能反应。

AoT数据分为三种类型：

视频级AoT：完整战斗片段的语义描述与动作序列
帧级AoT：单帧画面的即时决策与解释
截断式AoT：带⟨TRUNC⟩标记的简化序列，用于加速推理

3. 训练方法论

CombatVLA采用多项创新训练技术：

动作-帧对齐公式：确保每个动作与最近的未来帧精确对齐
自适应动作加权损失：平衡不同动作类别的学习权重(治疗权重0.1 vs 移动权重0.01)
损失函数组合：

对比损失函数：拉近匹配样本的视觉-动作嵌入距离
总损失函数：语言建模损失与动作损失的加权组合

训练数据主要来自《黑神话：悟空》的第9和第10任务，包含10种基础动作：

"wsad"移动
"shift"冲刺
"space"翻滚(只狼中为格挡防御)
"r"回血
"1"定身
鼠标左键普攻
鼠标右键长按重击
组合技等衍生动作

4. 推理优化技术

CombatVLA的实时推理依赖于多项优化：

帧采样策略：对实时游戏画面进行智能采样，去除冗余帧
截断输出策略：提前终止低置信度的生成序列
动作优先级系统：根据战斗状态动态调整动作执行顺序
轻量级执行器：将自然语言指令直接转换为pyautogui代码

应用场景

1. 游戏AI测试与开发

CombatVLA可作为游戏开发者的高效测试工具，自动验证游戏难度平衡性和战斗机制合理性。其高达82.3%的任务成功率(人类玩家平均65.4%)和50倍的加速能力，可大幅缩短游戏测试周期。

2. 玩家辅助工具

对于普通玩家，CombatVLA可提供：

自动通关困难关卡
实时战斗策略建议
操作技巧学习平台

特别是在《黑神话：悟空》等高难度游戏中，帮助"手残党"克服挑战。

3. 具身智能研究平台

作为视觉-语言-动作模型的典型案例，CombatVLA为学术界提供了：

标准化战斗理解基准CUBench
高质量的AoT数据集
轻量级VLA架构参考

4. 跨领域迁移应用

尽管专为游戏设计，CombatVLA的技术可迁移至：

无人机实时避障
自动驾驶决策系统
机器人操作控制

其截断推理和渐进式学习框架尤其适合需要秒级响应的实时系统。

总结

CombatVLA作为首个专为3D动作游戏设计的视觉-语言-动作模型开源框架，通过创新的AoT数据格式、截断推理策略和轻量级架构，成功解决了复杂游戏环境中实时决策的三大挑战：秒级响应、高分辨率感知和动态战术推理。项目不仅提供了完整的工具链和丰富的资源，还在《黑神话：悟空》和《只狼：影逝二度》等游戏中实现了超越人类玩家的表现，同时保持50倍的推理加速。其技术方案和开源生态为游戏AI和具身智能研究提供了宝贵参考，展示了专用化小模型在特定领域战胜通用大模型的可能性。

VLA模型开源项目

本文由@ai资讯 原创发布。

该文章观点仅代表作者本人，不代表本站立场。本站不承担相关法律责任。

如若转载，请注明出处：https://www.zhanid.com/news/combatvla.html

THE END

ai资讯

关注ai行业发展，专注ai软件推荐。

关注