VLMEvalKit：OpenCompass推出的开源多模态大模型评测工具包

原创 2025-08-15 10:22:41新闻资讯

531

一、VLMEvalKit是什么

VLMEvalKit 是由OpenCompass团队开发的一个专注于多模态大模型(Vision-Language Models, VLMs)评测的开源工具包。作为CompassKit大模型评测全栈工具链的重要组成部分，它旨在为研究社区提供可靠、可复现的多模态模型评测方案，解决当前多模态模型评测缺乏统一框架的难题。

随着OpenFlamingo、LLaVA、MiniGPT-4等创新多模态项目的涌现，社区已见证了超过一百种多模态模型和众多评测数据集的诞生。然而，不同模型通常在各自选择的评测集上报告结果，缺乏横向可比性。VLMEvalKit应运而生，通过标准化接口和自动化流程，实现了对多种视觉语言模型的"一键式"评估，显著降低了研究人员的评估门槛。

该项目采用模块化设计，支持图文多模态模型的全面评测，包括但不限于图像问答、视频理解、多模态推理等任务。其核心定位是为社区提供一个中立的评测平台，通过丰富的模型支持、全面的评测集覆盖和高效的分布式评测策略，助力开发者准确比较不同多模态模型在各种任务上的性能表现。

二、功能特色

1. 全面的模型与评测集支持

VLMEvalKit最突出的特点是其对多样化模型和评测集的广泛支持。在模型方面，它已支持包括闭源API模型和开源模型在内的200+视觉语言模型。具体包括：

主流API模型：GPT-4v、GeminiPro、QwenVLPlus等商业多模态服务
开源模型：llava-v1.5、mPLUG-Owl2、XComposer、CogVLM、IDEFICS等超过三十个知名开源多模态模型
视频理解模型：支持IDEFICS2、GPT-4o等处理视频输入的模型

在评测集方面，工具包覆盖了70+主流视觉语言基准测试，包括：

综合能力评测：MMBench系列(中英文版)、MME、SEEDBench等
专业领域评测：MathVista(数学推理)、MMMU(多学科知识)、MMVet(医疗诊断)等
视频理解评测：MMBench-Video等支持多帧输入的评测集

这种全面的支持使得研究人员可以在统一标准下比较不同模型的性能，避免了因评测集差异导致的偏差。

2. 便捷的一站式评测流程

VLMEvalKit设计了高度自动化的评测流程，显著降低了使用门槛：

无需手动预处理：所有支持的数据集均可自动下载和处理，用户只需指定数据集名称
单命令完成评测：通过简单的命令行参数即可启动对多个模型和评测集的评测
灵活的运行模式：支持完整模式(推理+评估)和仅推理模式，适应不同需求

例如，要评测IDEFICS-80B模型在MMBench等三个数据集上的表现，只需运行：

python run.py --data MMBench_DEV_EN MME SEEDBench_IMG --model idefics_80b_instruct

对于需要并行评测多个模型的情况，可以使用torchrun实现多GPU加速：

torchrun --nproc-per-node=8 run.py --data MMBench_DEV_EN --model idefics_9b_instruct qwen_chat mPLUG-Owl2

3. 高度可扩展的架构设计

VLMEvalKit采用模块化设计，使得添加新模型和评测集变得异常简单：

添加新评测集只需：

将数据转化为标准TSV格式(包含index、image、question、answer等字段)
实现build_prompt(构建多模态输入)和evaluate(计算指标)两个核心方法
支持单对图文或任意交错图文输入的prompt构建

集成新模型只需：

实现generate_inner方法，处理多模态输入(图像路径/URL和文本)
支持基本的generate(image, prompt)接口
在config.py中注册模型配置

这种设计使得社区贡献变得容易，项目已通过PR机制吸收了包括Monkey、AI2D等多个新模型和数据集的贡献。

4. 多样化的评估策略

不同于传统的困惑度(PPL)评估方法，VLMEvalKit采用更接近实际应用的生成式评估范式。它支持多种评估策略：

精确匹配：直接比对模型输出与标准答案
LLM辅助评估：使用语言模型(如GPT-4)从模型输出中提取和评判答案
混合评估：针对不同题型采用最适合的评估方式

特别值得一提的是，工具包支持本地评判模型部署，用户可以使用LMDeploy部署本地语言模型(如internlm2-chat-1_8b)作为评判者，替代依赖OpenAI API的方案：

lmdeploy serve api_server internlm/internlm2-chat-1_8b --server-port 23333

5. 动态更新的评测榜单

VLMEvalKit的评测结果通过OpenCompass多模态整体榜单(CompassRank)公开呈现，该榜单：

覆盖多领域、多任务下的模型性能
定期更新，提供动态的行业洞察
保持中立性，不受商业利益干扰

榜单不仅展示总体排名，还提供各模型在不同能力维度(如语言、知识、推理等)的详细表现，帮助用户根据具体需求选择合适的模型。

三、技术细节

1. 系统架构

VLMEvalKit的技术架构遵循清晰的流程链：用户输入→模型加载→数据预处理→推理生成→结果评估→报告生成。这种流水线设计确保了各模块的独立性和可替换性。

核心组件包括：

配置管理系统：vlmeval/config.py统一管理所有支持的模型配置
数据预处理模块：自动处理不同格式的评测数据，转化为统一中间表示
推理引擎：支持API调用和本地模型推理两种模式
评估模块：实现多种评估策略和指标计算
结果可视化：生成结构化报告和榜单展示

2. 数据处理规范

评测数据以TSV(Tab-Separated Values)格式存储，包含以下关键字段：

字段名	必选	说明
index	是	数据唯一标识
image	是	图片的base64编码
question	是	针对图像的问题
answer	测试集可选	问题答案

图片编码可使用工具包提供的API实现：

from vlmeval.smp.vlm import encode_image_to_base64, decode_base64_to_image

对于需要交错图文输入的场景，数据通过特定结构的列表表示，例如：

[
    {"type": "image", "value": "/path/to/image.jpg"},
    {"type": "text", "value": "这张图片描述了什么？"}
]

3. 模型接口设计

所有模型必须实现generate_inner(msgs, dataset=None)方法，这是模型推理的核心接口。输入msgs为多模态消息列表，每个元素包含：

type：'image'或'text'
value：图片路径/URL或文本内容

典型实现模式如下：

def generate_inner(self, msgs, dataset=None):
    # 解析多模态输入
    images = [x['value'] for x in msgs if x['type'] == 'image']
    texts = [x['value'] for x in msgs if x['type'] == 'text']
    
    # 调用模型推理
    response = self.model.generate(images, texts)
    return response

4. 分布式评测策略

针对大规模模型评测的需求，VLMEvalKit设计了灵活的GPU资源管理策略：

python模式：适合参数量极大的模型(如IDEFICS-80B)，单个模型实例可使用多个GPU
torchrun模式：适合GPU内存占用较小的模型，可加速多模型并行评测
显存优化：通过CUDA_VISIBLE_DEVICES环境变量实现精细的GPU分配

例如，在8GPU节点上评测视频理解能力可采用：

torchrun --nproc-per-node=8 run.py --data MMBench_Video_8frame_nopack --model idefics2_8

5. 提示词构建机制

VLMEvalKit中的提示词构建支持多层次自定义：

数据集级别：通过dataset.build_prompt()函数实现
模型级别：通过model.build_prompt()函数实现
优先级：当两者同时存在时，模型级别的实现优先

这种灵活性允许开发者针对不同模型和任务特点优化提示词，以获得最佳评测效果。

四、应用场景

VLMEvalKit的广泛应用场景使其成为多模态研究领域的基础设施级工具。

1. 模型研发与优化

对于多模态模型开发者，VLMEvalKit提供了：

性能基准测试：快速验证模型在标准评测集上的表现
消融实验支持：比较不同架构或训练策略的效果
迭代优化依据：识别模型弱点并针对性改进

例如，评测结果显示开源模型在需要强推理能力的测试集(如MMMU、MathVista)上与闭源API模型存在差距，这为后续研究指明了方向。

2. 学术研究与论文实验

研究人员可以利用VLMEvalKit：

复现已有研究：通过统一评测框架验证前人工作
开展对比实验：公平比较不同方法在相同条件下的表现
发现新问题：通过分析模型共性的失败案例寻找研究突破口

工具包的可复现性设计（全链路公开数据集和提示词）特别适合学术研究的需求。

3. 产业应用选型

企业技术选型团队可通过：

全面评估：基于多维度评测数据选择最适合业务场景的模型
成本效益分析：比较不同模型在性能与资源消耗间的平衡
长期追踪：通过动态更新的榜单了解模型发展态势

OpenCompass多模态整体榜单已成为许多企业选型的重要参考依据。

4. 教学与人才培养

在教育领域，VLMEvalKit可用于：

实践教学：让学生亲手体验多模态模型的评测过程
课程设计：基于标准评测集设计实验课程内容
技能认证：建立统一的能力评估标准

其低代码配置和详细文档特别适合教学场景。

五、相关官方链接

GitHub仓库： https://github.com/open-compass/VLMEvalKit
多模态榜单： https://opencompass.org.cn/leaderboard-multimodal
MMBench榜单： https://mmbench.opencompass.org.cn/leaderboard

六、总结

VLMEvalKit作为OpenCompass生态系统中的多模态评测核心组件，通过其全面支持的模型和评测集、便捷的一站式评测流程、高度可扩展的架构设计、多样化的评估策略以及动态更新的评测榜单，已成为多模态研究领域不可或缺的基础工具。它不仅解决了当前多模态模型评测缺乏统一框架的难题，还通过标准化的接口和自动化的流程显著降低了研究门槛，促进了学术界的开放协作和产业界的实践应用。无论是模型开发者、学术研究者还是企业技术团队，都能从中获得可靠、高效的评测支持，推动多模态人工智能技术的健康发展。

开源项目大模型评测

本文由@ai资讯 原创发布。

该文章观点仅代表作者本人，不代表本站立场。本站不承担相关法律责任。

如若转载，请注明出处：https://www.zhanid.com/news/vlmevalkit.html

THE END

ai资讯

关注ai行业发展，专注ai软件推荐。

关注