一、Magnitude是什么?
Magnitude 是一个基于视觉人工智能(Vision AI)的开源浏览器自动化工具,旨在让用户通过自然语言控制浏览器界面。它不仅可以理解网页界面内容,还能根据用户的指令执行精准操作、提取结构化数据,并进行可视化断言测试。Magnitude 的设计目标是为开发者、测试人员以及自动化需求者提供一种高效、灵活且可扩展的浏览器自动化解决方案。
Magnitude 支持多种任务级别,包括高层次的任务描述和低层次的操作指令,适用于网页自动化、跨应用集成、数据提取、Web 应用测试等多个场景。其核心优势在于“视觉优先”的架构设计,使其能够适应复杂的现代网站结构,甚至可以作为构建自定义浏览器代理的基础模块。
二、功能特色
1. 🧭 导航(Navigate)
智能识别与理解界面:Magnitude 使用视觉模型对网页或应用程序界面进行识别,自动理解页面布局、按钮、输入框等元素。
动作规划能力:基于对界面的理解,系统能够自主规划完成用户指定任务所需的步骤,例如点击某个按钮、填写表单、跳转页面等。
2. 🖱️ 交互(Interact)
精准操作执行:支持鼠标点击、拖拽、键盘输入等多种操作方式,确保与网页的交互行为高度拟真。
多层级控制:既可接受高层语义指令(如“创建一个任务”),也可处理低层具体动作(如“将‘Use Magnitude’拖到‘进行中’列顶部”)。
3. 🔍 提取(Extract)
结构化数据抽取:利用 Zod Schema 定义所需的数据结构,Magnitude 可从网页中提取符合该结构的数据。
智能推理能力:不仅限于已有 DOM 数据,还能结合上下文信息生成新的洞察,如任务难度评分(1-5 分)。
4. ✅ 验证(Verify)
内置测试运行器:提供强大的可视化断言机制,可用于 Web 应用的功能性测试和回归测试。
断言验证示例:比如在执行完某个操作后,检查特定元素是否出现、文本是否更新、页面状态是否改变等。
5. ⚙️ 控制与抽象能力
多级抽象控制:允许用户选择操作粒度,既可以是粗粒度的任务级指令,也可以是细粒度的动作序列。
自定义提示与动作:支持在代理层(Agent Level)和动作层(Action Level)添加自定义提示词和操作逻辑。
确定性执行机制:正在开发中的原生缓存系统将确保每次运行结果的一致性和可重复性。
三、技术细节
1. 视觉优先架构(Vision-First Architecture)
不依赖DOM结构:不同于传统浏览器自动化工具(如 Selenium)依赖于 DOM 树结构解析,Magnitude 直接通过视觉模型理解页面内容。
像素坐标控制:使用大型视觉基础模型(Visually Grounded LLM)输出精确的像素坐标来执行操作,实现真正意义上的泛化能力。
未来兼容性:该架构不仅适用于网页应用,还可扩展至桌面应用、虚拟机环境等复杂交互场景。
2. 支持的模型推荐
推荐模型:Claude Sonnet 4(Anthropic)
兼容模型:Qwen-2.5VL 72B(通义千问系列)
注:Magnitude 依赖大模型进行视觉理解和决策,因此建议使用上述推荐模型以获得最佳性能体验。
3. 开发与测试配置
初始化新项目:
npx create-magnitude-app
该命令将引导用户创建一个包含示例脚本的新项目。
在现有项目中安装测试运行器:
npm i --save-dev magnitude-test npx magnitude init
这将在tests/magnitude目录下生成以下文件:
magnitude.config.ts:配置文件
example.mag.ts:示例测试脚本
测试运行与CI/CD集成
官方文档提供了完整的指南,说明如何运行测试、配置 CI/CD 环境并实现自动化部署。
四、应用场景
1. 网页自动化任务
Magnitude 可用于自动执行日常网页操作任务,例如:
自动填写表单
自动登录与登出
页面导航与点击流程自动化
模拟用户行为进行压力测试
2. 跨平台应用集成(无API依赖)
当两个应用之间没有开放 API 接口时,Magnitude 可通过模拟用户操作实现数据传递与流程衔接,例如:
从一个 CRM 系统复制客户信息粘贴到另一个 ERP 系统
自动抓取报表并上传到另一个平台
3. 数据提取与分析
通过定义 Zod Schema,Magnitude 可从网页中提取结构化数据,适用于:
抓取电商网站商品价格与库存
提取新闻文章标题与正文
获取股票市场实时行情数据
4. Web 应用测试与质量保障
Magnitude 的可视化断言能力使其成为优秀的测试工具,尤其适合:
UI 功能测试
回归测试
断言页面状态变化
自动化测试报告生成
5. 构建自定义浏览器代理
开发者可基于 Magnitude 构建自己的浏览器代理程序,实现:
自动化客服机器人
自动化数据采集器
自动化监控系统
五、相关链接
仓库地址:https://github.com/magnitudedev/magnitude
官网主页:https://magnitude.run/
总结
Magnitude 是一款基于视觉AI的浏览器自动化工具,凭借其“视觉优先”的架构设计,突破了传统基于DOM结构的限制,实现了更高程度的通用性与适应性。其核心功能涵盖导航、交互、数据提取与验证四大模块,既适用于自动化任务执行,也适用于Web应用测试与跨平台集成。技术上,Magnitude 支持多种大型视觉模型,具备像素级操作精度,并提供灵活的抽象控制机制,满足不同层次的开发与测试需求。无论你是开发者、测试工程师还是企业用户,Magnitude 都是一个值得尝试的强大工具。
本文由@ai资讯 原创发布。
该文章观点仅代表作者本人,不代表本站立场。本站不承担相关法律责任。
如若转载,请注明出处:https://www.zhanid.com/news/magnitude.html