GLM-4.1V-Thinking:智谱AI与清华大学联合开源的多模态推理大模型

原创 2025-07-04 10:33:21新闻资讯
510

一、GLM-4.1V-Thinking是什么

GLM-4.1V-Thinking 是由智谱AI(Zhipu AI)与清华大学联合研发的开源视觉语言大模型(Vision-Language Model, VLM),专注于提升AI系统在复杂认知任务中的推理能力。该项目包含两个核心模型:GLM-4.1V-9B-Base基座模型和具备深度推理能力的GLM-4.1V-9B-Thinking模型。作为10B参数级别的轻量级模型,它在28项权威评测中有18项任务表现超越720亿参数的Qwen2.5-VL-72B,展示了通过精心的架构设计和训练策略,小参数模型也能达到甚至超越大模型性能的可能性。

该模型的核心突破在于引入了"思维链推理机制"(Chain-of-Thought Reasoning)和创新的"课程采样强化学习策略"(RLCS, Reinforcement Learning with Curriculum Sampling),使模型能够像人类一样在给出最终答案前展示完整的分析步骤,显著提升了跨模态因果推理的准确性与稳定性。项目已在Hugging Face、ModelScope和GitHub同步开源,提供完整的模型权重、训练代码和多域奖励系统。

二、功能特色

1. 多模态输入支持

GLM-4.1V-Thinking支持图像、视频、文档等多种模态的输入处理。特别在视频理解方面,能够解析最长两小时的视频内容,通过推理对时间、人物、事件和逻辑关系进行准确分析。对于静态图像,模型支持极端宽高比(超过200:1)和超高分辨率(4K以上)的输入。

2. 深度推理能力

与传统视觉语言模型不同,GLM-4.1V-Thinking在回答问题时会产生详细的推理过程,包括反思、回溯、重试和验证等策略。例如在解答数学题时,模型会逐步展示几何证明的每一步推导,而不仅仅是给出最终答案。这种"思考"机制使模型的输出更加透明和可靠。

3. 广泛的任务覆盖

模型通过混合训练融合了丰富的多模态能力,包括但不限于:

  • 学科解题:支持数学、物理、生物、化学等STEM领域的看图解题

  • 文档解读:对金融、政务、教育等领域的文档进行理解、抽取和问答

  • GUI智能体:识别网页、电脑/手机屏幕元素,支持点击、滑动等指令执行

  • 代码生成:基于输入图片自动编写前端代码,实现"看图写网页"

  • 视觉定位:识别图片中的特定区域并抽取坐标位置

4. 卓越的性能表现

在多项基准测试中,GLM-4.1V-9B-Thinking展现出超越同参数规模模型的性能:

  • 通用VQA任务:MMBench-V1.1-EN得分85.8,超越GPT-4o的84.4

  • STEM推理:MMMU-Pro得分57.1,超越Qwen2.5-VL-72B的51.1

  • 长文档理解:MMLongBench-Doc得分42.4 vs 72B模型的35.2

  • 多模态编程:Design2Code任务得分64.7,显著领先竞品

GLM-4.1V.webp

三、技术细节

1. 模型架构

GLM-4.1V-Thinking采用三组件设计:

  1. 视觉编码器(ViT Encoder):基于AIMv2-Huge架构,将原始2D卷积替换为3D卷积以处理视频输入,实现2倍时间下采样

  2. MLP投影器:将视觉特征对齐到语言模型的token空间

  3. 语言解码器:基于GLM架构,扩展3D旋转位置编码(3D-RoPE)增强多模态空间理解

针对分辨率适应问题,模型融合了2D旋转位置编码(2D-RoPE)处理极端宽高比,同时保留ViT的绝对位置嵌入并通过双三次插值动态适配分辨率。对于视频输入,在每帧后插入时间索引token以增强时间理解能力。

2. 训练流程

模型训练分为三个阶段:

阶段一:多模态预训练

  • 数据规模:超过100亿图文对,经过CLIP模型筛选(相似度>0.3)

  • 数据处理:采用概念平衡重采样和"重新描述"模型改善数据质量

  • 训练配置:120,000步,序列长度8K,批量1,536

阶段二:监督微调(SFT)

  • 构建长思维链语料库,统一响应格式:<think>{推理过程}</think> <answer>{答案}</answer>

  • 序列长度扩展至32K,增加视频和超长序列数据

阶段三:强化学习优化(RLCS)

  • 动态难度采样:根据模型当前能力调整样本难度

  • 多领域统一奖励系统:覆盖STEM、图表理解、GUI交互等

  • 关键优化:移除KL损失、使用top-p=1采样

3. 核心创新

  1. 课程采样强化学习(RLCS):动态调整训练样本难度分布,重点关注中等难度样本

  2. 多模态交错数据处理:对网页数据去除无关图片和广告,学术书籍使用PDF深度解析

  3. 跨领域泛化:不同模态任务训练相互促进,如STEM训练提升GUI交互能力

四、应用场景

1. 教育领域

模型可帮助学生解决STEM问题,如2025年高考数学真题的逐步解析。在MathVista测试中,其80.7的得分显著高于GPT-4o的64.0,展示了强大的数学可视化推理能力。

2. 企业应用

  • 文档处理:理解金融报告、合同等复杂文档

  • 商业智能:分析利润图表并提取关键信息,如识别索尼公司6.3B美元的最高利润

  • 自动化办公:根据指令创建会议日程,输出如{"action_type": "click", "box_2d": [[27,840,122,885]]}的GUI操作

3. 开发辅助

  • 前端开发:输入设计图可自动生成React代码,如创建包含订单管理系统的完整网页

  • 调试辅助:分析代码执行问题并提供解决方案

4. 科研支持

帮助研究人员快速理解学术论文中的图表和公式,在AI2D科学图表理解测试中取得87.9的高分。

五、相关链接

  • GitHub: https://github.com/THUDM/GLM-4.1V-Thinking

  • Hugging Face Demo: https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

  • 魔搭社区Demo: https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

  • 技术论文:https://arxiv.org/abs/2507.01006

六、总结

GLM-4.1V-Thinking作为一款开源的多模态推理大模型,通过创新的RLCS训练框架和精心的架构设计,在9B参数规模下实现了与更大模型媲美甚至超越的性能表现。其核心价值在于将多模态理解从简单的"感知"提升到"认知"层面,通过透明的思维链推理过程,使AI系统的输出更加可靠和可解释。项目提供的完整开源资源,包括基座模型、推理模型、训练代码和多域奖励系统,为研究者和开发者探索视觉语言模型的能力边界提供了强大工具,有望推动教育、企业应用、科研等多个领域的智能化升级。

推理大模型 ai大模型 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
650

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
617

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
603

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
556

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
630

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
560