一、DeepEyes是什么?
DeepEyes是由小红书与西安交通大学联合研发的开源多模态视觉语言模型(VLM),旨在赋予AI“边看图边思考”的能力,即通过动态调用视觉工具(如图像局部放大)在推理过程中主动聚焦关键区域,实现类似人类视觉认知的交互式分析。其核心创新在于:
原生图像思维能力:模型通过端到端强化学习(RL)自主发展出视觉-文本交替推理能力,无需依赖监督微调(SFT)或预定义工作流。
交错多模态思维链(iMCoT):将视觉观察与文本推理步骤动态交织,形成渐进式细节提取的推理模式。
工具调用优化机制:通过条件性工具奖励设计,激励模型仅在必要时调用图像放大工具,避免冗余操作。
DeepEyes基于Qwen2.5-VL-7B模型构建,在多项视觉推理基准测试中超越32B参数量的基线模型,并接近OpenAI未公开的o3模型性能。
二、功能特色
动态视觉聚焦
模型可自主生成边界框坐标,调用图像放大工具对模糊或微小目标区域进行局部观察,显著提升高分辨率图像的细节分析能力(如识别8K图像中的文字或微小物体)。多模态推理融合
支持视觉搜索、比较、确认等多样化推理模式:视觉搜索:系统扫描图像不同区域以定位关键信息。
视觉比较:迭代放大多个对象进行细粒度对比。
幻觉抑制:通过工具调用验证视觉细节,减少错误响应。
低训练成本与高泛化性
仅需问答对数据即可训练,无需复杂标注的SFT数据,且通过强化学习实现跨任务适应(如数学推理、图表解析)。开源与易部署
提供完整代码、预训练模型及在线演示,支持Hugging Face集成与Kubernetes私有化部署。
三、技术细节
架构设计
基础模型:Qwen2.5-VL-7B作为多模态骨干,结合视觉编码器与语言模型。
工具模块:图像放大工具接收坐标输入,返回裁剪区域作为中间观察标记。
推理循环:模型在文本生成与工具调用间动态切换,形成iMCoT轨迹。
强化学习框架
准确性奖励(Racc):最终答案正确性。
格式奖励(Rformat):输出结构规范性。
条件工具奖励(Rtool):仅当工具调用辅助正确答案时生效。
奖励函数:
优化算法:采用Group Relative Policy Optimization(GRPO),通过分组策略更新提升训练稳定性。
数据策略
细粒度数据(高分辨率自然图像)。
图表数据(科学论文图表解析)。
推理数据(数学与逻辑问题)。
筛选原则:优先选择工具调用能显著提升信息增益的样本(如模糊区域需放大)。
数据集构成:
训练动态
工具调用行为分三阶段演化:探索期(0-20步):随机调用工具,定位精度低。
高频期(20-45步):积极调用以最大化奖励,准确率快速提升。
成熟期(45步后):精准调用工具,响应简洁且IoU(交并比)达0.7以上。
四、应用场景
医疗影像分析
辅助标注CT扫描中的病灶区域,通过局部放大提升微小病变识别准确率。工业质检
对产品表面缺陷进行多尺度检测,漏检率低于0.1%。教育辅助
自动解析几何题目中的隐藏条件,或从教科书插图中构建知识图谱。自动驾驶
实时分析高分辨率道路图像,精准识别交通标志与行人位置。金融文档处理
提取复杂图表中的关键数据,辅助投资决策分析。
五、相关链接
论文:https://arxiv.org/abs/2505.14362
代码仓库:https://github.com/Visual-Agent/DeepEyes
在线演示:https://huggingface.co/ChenShawn/DeepEyes-7B
数据集:https://huggingface.co/datasets/ChenShawn/DeepEyes-Datasets-47k
六、总结
DeepEyes通过端到端强化学习实现了多模态模型的“图像思维”能力,其创新的iMCoT框架与条件工具奖励机制,显著提升了高分辨率感知、跨任务泛化及幻觉抑制性能。作为开源领域首个接近o3水平的视觉推理模型,DeepEyes为金融、医疗等行业的复杂视觉任务提供了高效解决方案,同时降低了训练与部署门槛。
本文由@ai资讯 原创发布。
该文章观点仅代表作者本人,不代表本站立场。本站不承担相关法律责任。
如若转载,请注明出处:https://www.zhanid.com/news/deepeyes.html