DeepEyes:小红书和西安交大联开源的多模态视觉语言模型(VLM)

原创 2025-06-04 10:21:05新闻资讯
555

一、DeepEyes是什么?

DeepEyes是由小红书与西安交通大学联合研发的开源多模态视觉语言模型(VLM),旨在赋予AI“边看图边思考”的能力,即通过动态调用视觉工具(如图像局部放大)在推理过程中主动聚焦关键区域,实现类似人类视觉认知的交互式分析。其核心创新在于:

  1. 原生图像思维能力:模型通过端到端强化学习(RL)自主发展出视觉-文本交替推理能力,无需依赖监督微调(SFT)或预定义工作流。

  2. 交错多模态思维链(iMCoT):将视觉观察与文本推理步骤动态交织,形成渐进式细节提取的推理模式。

  3. 工具调用优化机制:通过条件性工具奖励设计,激励模型仅在必要时调用图像放大工具,避免冗余操作。

DeepEyes基于Qwen2.5-VL-7B模型构建,在多项视觉推理基准测试中超越32B参数量的基线模型,并接近OpenAI未公开的o3模型性能。

二、功能特色

  1. 动态视觉聚焦
    模型可自主生成边界框坐标,调用图像放大工具对模糊或微小目标区域进行局部观察,显著提升高分辨率图像的细节分析能力(如识别8K图像中的文字或微小物体)。

  2. 多模态推理融合
    支持视觉搜索、比较、确认等多样化推理模式:

    • 视觉搜索:系统扫描图像不同区域以定位关键信息。

    • 视觉比较:迭代放大多个对象进行细粒度对比。

    • 幻觉抑制:通过工具调用验证视觉细节,减少错误响应。

  3. 低训练成本与高泛化性
    仅需问答对数据即可训练,无需复杂标注的SFT数据,且通过强化学习实现跨任务适应(如数学推理、图表解析)。

  4. 开源与易部署
    提供完整代码、预训练模型及在线演示,支持Hugging Face集成与Kubernetes私有化部署。

DeepEyes.webp

三、技术细节

  1. 架构设计

    • 基础模型:Qwen2.5-VL-7B作为多模态骨干,结合视觉编码器与语言模型。

    • 工具模块:图像放大工具接收坐标输入,返回裁剪区域作为中间观察标记。

    • 推理循环:模型在文本生成与工具调用间动态切换,形成iMCoT轨迹。

  2. 强化学习框架

    • 准确性奖励(Racc):最终答案正确性。

    • 格式奖励(Rformat):输出结构规范性。

    • 条件工具奖励(Rtool):仅当工具调用辅助正确答案时生效。

    • 奖励函数

    • 优化算法:采用Group Relative Policy Optimization(GRPO),通过分组策略更新提升训练稳定性。

  3. 数据策略

    • 细粒度数据(高分辨率自然图像)。

    • 图表数据(科学论文图表解析)。

    • 推理数据(数学与逻辑问题)。

    • 筛选原则:优先选择工具调用能显著提升信息增益的样本(如模糊区域需放大)。

    • 数据集构成

  4. 训练动态
    工具调用行为分三阶段演化:

    • 探索期(0-20步):随机调用工具,定位精度低。

    • 高频期(20-45步):积极调用以最大化奖励,准确率快速提升。

    • 成熟期(45步后):精准调用工具,响应简洁且IoU(交并比)达0.7以上。

四、应用场景

  1. 医疗影像分析
    辅助标注CT扫描中的病灶区域,通过局部放大提升微小病变识别准确率。

  2. 工业质检
    对产品表面缺陷进行多尺度检测,漏检率低于0.1%。

  3. 教育辅助
    自动解析几何题目中的隐藏条件,或从教科书插图中构建知识图谱。

  4. 自动驾驶
    实时分析高分辨率道路图像,精准识别交通标志与行人位置。

  5. 金融文档处理
    提取复杂图表中的关键数据,辅助投资决策分析。

五、相关链接

  • 论文:https://arxiv.org/abs/2505.14362

  • 代码仓库:https://github.com/Visual-Agent/DeepEyes

  • 在线演示:https://huggingface.co/ChenShawn/DeepEyes-7B

  • 数据集:https://huggingface.co/datasets/ChenShawn/DeepEyes-Datasets-47k

六、总结

DeepEyes通过端到端强化学习实现了多模态模型的“图像思维”能力,其创新的iMCoT框架与条件工具奖励机制,显著提升了高分辨率感知、跨任务泛化及幻觉抑制性能。作为开源领域首个接近o3水平的视觉推理模型,DeepEyes为金融、医疗等行业的复杂视觉任务提供了高效解决方案,同时降低了训练与部署门槛。

VLM ai模型
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

HunyuanVideo-Foley:腾讯混元团队开源的一款端到端视频音效生成模型
HunyuanVideo-Foley 是腾讯混元团队研发并开源的一款端到端视频音效生成模型,其核心使命是通过人工智能技术,为无声视频自动生成高质量、高同步的音效与背景音乐,打造真正意...
2025-08-29 新闻资讯
623

Seed-OSS:原生512K长上下文与可控推理的开源大语言模型
一、Seed-OSS是什么?Seed-OSS是字节跳动Seed团队开源的大语言模型系列,标志着字节跳动首次进军开源大模型赛道。这一系列模型以其360亿参数的规模、原生512K超长上下文支持...
2025-08-22 新闻资讯
639

VLMEvalKit:OpenCompass推出的开源多模态大模型评测工具包
VLMEvalKit 是由OpenCompass团队开发的一个专注于多模态大模型(Vision-Language Models, VLMs)评测的开源工具包。作为CompassKit大模型评测全栈工具链的重要组成部分,它旨在...
2025-08-15 新闻资讯
533

RynnEC:阿里达摩院开源的一款专为具身智能设计的世界理解模型
RynnEC是阿里巴巴达摩院开源的一款专为具身智能设计的世界理解模型,属于多模态大语言模型(MLLM)范畴。其核心目标是赋予AI系统对物理世界的深度理解能力,使机器人或智能体...
2025-08-13 新闻资讯
546

RynnVLA-001:基于视频生成与人体轨迹预训练的视觉-语言-动作模型
RynnVLA-001是阿里巴巴达摩院自主研发并开源的视觉-语言-动作(Vision-Language-Action, VLA)模型,专为具身智能(Embodied AI)场景设计。该项目通过大规模第一人称视角视频...
2025-08-13 新闻资讯
594

GPT-OSS:OpenAI开源的高效稀疏激活大语言模型
GPT-OSS(Open-Source Series)是OpenAI发布的两款开源大型语言模型系列,包括GPT-OSS-120B和GPT-OSS-20B两个版本。这是OpenAI自2019年发布GPT-2以来,时隔6年首次回归开源阵...
2025-08-07 新闻资讯
588