Magnitude:基于视觉AI的开源浏览器自动化工具

原创 2025-07-04 10:54:00新闻资讯
637

一、Magnitude是什么?

Magnitude 是一个基于视觉人工智能(Vision AI)的开源浏览器自动化工具,旨在让用户通过自然语言控制浏览器界面。它不仅可以理解网页界面内容,还能根据用户的指令执行精准操作、提取结构化数据,并进行可视化断言测试。Magnitude 的设计目标是为开发者、测试人员以及自动化需求者提供一种高效、灵活且可扩展的浏览器自动化解决方案。

Magnitude 支持多种任务级别,包括高层次的任务描述和低层次的操作指令,适用于网页自动化、跨应用集成、数据提取、Web 应用测试等多个场景。其核心优势在于“视觉优先”的架构设计,使其能够适应复杂的现代网站结构,甚至可以作为构建自定义浏览器代理的基础模块。

二、功能特色

1. 🧭 导航(Navigate)

  • 智能识别与理解界面:Magnitude 使用视觉模型对网页或应用程序界面进行识别,自动理解页面布局、按钮、输入框等元素。

  • 动作规划能力:基于对界面的理解,系统能够自主规划完成用户指定任务所需的步骤,例如点击某个按钮、填写表单、跳转页面等。

2. 🖱️ 交互(Interact)

  • 精准操作执行:支持鼠标点击、拖拽、键盘输入等多种操作方式,确保与网页的交互行为高度拟真。

  • 多层级控制:既可接受高层语义指令(如“创建一个任务”),也可处理低层具体动作(如“将‘Use Magnitude’拖到‘进行中’列顶部”)。

3. 🔍 提取(Extract)

  • 结构化数据抽取:利用 Zod Schema 定义所需的数据结构,Magnitude 可从网页中提取符合该结构的数据。

  • 智能推理能力:不仅限于已有 DOM 数据,还能结合上下文信息生成新的洞察,如任务难度评分(1-5 分)。

4. ✅ 验证(Verify)

  • 内置测试运行器:提供强大的可视化断言机制,可用于 Web 应用的功能性测试和回归测试。

  • 断言验证示例:比如在执行完某个操作后,检查特定元素是否出现、文本是否更新、页面状态是否改变等。

5. ⚙️ 控制与抽象能力

  • 多级抽象控制:允许用户选择操作粒度,既可以是粗粒度的任务级指令,也可以是细粒度的动作序列。

  • 自定义提示与动作:支持在代理层(Agent Level)和动作层(Action Level)添加自定义提示词和操作逻辑。

  • 确定性执行机制:正在开发中的原生缓存系统将确保每次运行结果的一致性和可重复性。

三、技术细节

1. 视觉优先架构(Vision-First Architecture)

  • 不依赖DOM结构:不同于传统浏览器自动化工具(如 Selenium)依赖于 DOM 树结构解析,Magnitude 直接通过视觉模型理解页面内容。

  • 像素坐标控制:使用大型视觉基础模型(Visually Grounded LLM)输出精确的像素坐标来执行操作,实现真正意义上的泛化能力。

  • 未来兼容性:该架构不仅适用于网页应用,还可扩展至桌面应用、虚拟机环境等复杂交互场景。

2. 支持的模型推荐

  • 推荐模型:Claude Sonnet 4(Anthropic)

  • 兼容模型:Qwen-2.5VL 72B(通义千问系列)

注:Magnitude 依赖大模型进行视觉理解和决策,因此建议使用上述推荐模型以获得最佳性能体验。

3. 开发与测试配置

初始化新项目:

npx create-magnitude-app

该命令将引导用户创建一个包含示例脚本的新项目。

在现有项目中安装测试运行器:

npm i --save-dev magnitude-test
npx magnitude init

这将在tests/magnitude目录下生成以下文件:

  • magnitude.config.ts:配置文件

  • example.mag.ts:示例测试脚本

测试运行与CI/CD集成

官方文档提供了完整的指南,说明如何运行测试、配置 CI/CD 环境并实现自动化部署。

magnitude.webp

四、应用场景

1. 网页自动化任务

Magnitude 可用于自动执行日常网页操作任务,例如:

  • 自动填写表单

  • 自动登录与登出

  • 页面导航与点击流程自动化

  • 模拟用户行为进行压力测试

2. 跨平台应用集成(无API依赖)

当两个应用之间没有开放 API 接口时,Magnitude 可通过模拟用户操作实现数据传递与流程衔接,例如:

  • 从一个 CRM 系统复制客户信息粘贴到另一个 ERP 系统

  • 自动抓取报表并上传到另一个平台

3. 数据提取与分析

通过定义 Zod Schema,Magnitude 可从网页中提取结构化数据,适用于:

  • 抓取电商网站商品价格与库存

  • 提取新闻文章标题与正文

  • 获取股票市场实时行情数据

4. Web 应用测试与质量保障

Magnitude 的可视化断言能力使其成为优秀的测试工具,尤其适合:

  • UI 功能测试

  • 回归测试

  • 断言页面状态变化

  • 自动化测试报告生成

5. 构建自定义浏览器代理

开发者可基于 Magnitude 构建自己的浏览器代理程序,实现:

  • 自动化客服机器人

  • 自动化数据采集器

  • 自动化监控系统

五、相关链接

  • 仓库地址:https://github.com/magnitudedev/magnitude

  • 官网主页:https://magnitude.run/

总结

Magnitude 是一款基于视觉AI的浏览器自动化工具,凭借其“视觉优先”的架构设计,突破了传统基于DOM结构的限制,实现了更高程度的通用性与适应性。其核心功能涵盖导航、交互、数据提取与验证四大模块,既适用于自动化任务执行,也适用于Web应用测试与跨平台集成。技术上,Magnitude 支持多种大型视觉模型,具备像素级操作精度,并提供灵活的抽象控制机制,满足不同层次的开发与测试需求。无论你是开发者、测试工程师还是企业用户,Magnitude 都是一个值得尝试的强大工具。

浏览器自动化工具 ai自动化测试工具 开源项目
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Gogs: 一款类似GitHub的开源文件/代码管理系统
Gogs(发音为/gɑgz/)作为一款以Go语言开发的开源文件/代码管理系统,凭借“简单、稳定、可扩展”的核心定位,成为诸多开发者和团队替代GitHub进行私有代码托管的优选方案。...
2025-09-15 新闻资讯
650

WebVm:完全在浏览器中运行的 Linux 虚拟机环境,无需任何后端服务器支持
WebVM是一个革命性的开源项目,它实现了一个完全在浏览器中运行的Linux虚拟机环境,无需任何后端服务器支持。该项目由Leaning Technologies开发并开源,通过HTML5和WebAssemb...
2025-09-15 新闻资讯
617

Motia:多语言统一后端开发框架,整合 API、任务与 AI 代理的一站式解决方案
Motia是一个统一的后端框架,旨在消除现代软件工程中的运行时碎片化问题。它将 API、后台任务、工作流和 AI 代理整合到一个连贯的系统中,支持在同一个代码库中使用 JavaScri...
2025-09-14 新闻资讯
602

Artalk:一款开源、轻量且可自托管的评论系统,支持部署到任何网站
Artalk 是一款基于 Golang 后端和 JavaScript/TypeScript 前端的开源自托管评论系统,专为博客、静态网站、企业官网等场景设计。项目采用 MIT许可证,支持多语言、多站点管理...
2025-09-12 新闻资讯
556

FluentRead:开源的沉浸式浏览器翻译插件,支持20+AI与传统翻译引擎
FluentRead(流畅阅读)是一款开源的浏览器翻译插件,旨在为用户提供接近母语体验的多语言网页阅读解决方案。它通过集成多种翻译引擎和智能功能,帮助用户跨越语言障碍,特别适...
2025-09-11 新闻资讯
630

VTJ.PRO:AI驱动的企业级低代码开发平台,让Vue3开发更高效
VTJ.PRO是一款AI驱动的企业级低代码开发平台,专注于前端开发领域,基于Vue3 + TypeScript + Vite构建,深度融合可视化设计、源码工程与AI智能引擎,旨在解决传统开发中的效率...
2025-09-11 新闻资讯
559