OpAgent:登顶WebArena的多模态Web Agent

本文介绍了蚂蚁集团全模态代码算法团队自研的多模态Web智能体OpAgent。为应对真实Web环境的非结构化复杂性、时序不稳定性与交互隐式逻辑等挑战,我们提出了一套结合了多任务微调、在线强化学习与模块化协作的综合解决方案。OpAgent通过层次化多任务微调(MT-SFT)构建具备规划、行动和定位能力的视觉语言模型(VLM)基座;继而,在自建的在线交互环境中,利用创新的混合奖励机制进行在线强化学习(Online RL),有效缓解了离线训练带来的分布偏移问题;最后,通过一个包含规划器、定位器、反思器和总结器的模块化智能体架构,实现对复杂长时程任务的鲁棒执行与自我修正。在权威Web智能体评测基准WebArena上,OpAgent以71.6%的成功率于2026年1月取得了榜单第一的SOTA成绩。

一、背景与挑战

自主Web智能体旨在模拟人类在图形用户界面(GUI)上执行任务,其在自动化测试、数据采集、智能助理等领域具有广阔应用前景。然而,相较于PC或移动端环境,Web环境呈现出独特的挑战:

  • 非结构化复杂性:网页的DOM树结构庞大且充满噪声,传统基于HTML或DOM解析的方法难以有效提取关键信息,容易被冗余内容干扰。
  • 时序不稳定性:网页内容是动态的,异步加载、实时更新和临时性元素(如弹窗)使得环境状态频繁变化。依赖静态离线数据集训练的模型在部署于真实动态环境时,会面临严重的分布偏移(Distributional Shift)问题。
  • 交互的隐式逻辑:许多Web交互(如悬停触发菜单)依赖实时的视觉反馈来确认操作的成功与否,这种闭环交互逻辑是离线学习范式无法有效建模的。

为应对上述挑战,我们设计并实现了OpAgent框架,其核心在于从依赖静态数据向与真实环境动态交互的范式转变。

二、OpAgent技术框架

OpAgent的整体设计遵循一个分阶段的优化路径:首先通过多任务监督微调(MT-SFT)为模型注入基础的Web交互能力,然后通过在线强化学习(Online RL)在真实环境中对策略进行迭代优化,最终在推理阶段利用模块化智能体架构(Agentic Architecture)执行复杂任务。

2.1 层次化多任务微调 (Hierarchical Multi-Task Fine-tuning)

为构建一个强大的视觉语言模型(VLM)基座,我们首先摒弃了对脆弱的HTML文本解析的依赖,转而让模型直接从视觉截图(Screenshot)中感知和理解页面布局。我们将Web智能体的基础能力分解为三个维度:

  • 规划 (Planning):预测交互行为将导致的页面状态变迁。
  • 行动 (Acting):基于当前页面状态,决策下一步所需执行的操作。
  • 定位 (Grounding):在视觉上精确定位执行操作的UI元素坐标。

我们整合了包括Mind2Web、Aguvis、UGround在内的多个领域数据集,分别对上述三种能力进行训练。为解决不同数据集样本量级差异巨大(例如,百万级 vs. 千级)可能导致的梯度主导问题,我们引入了基于有效样本数 (Effective Number of Samples) 的加权策略,动态调整各任务在训练中的损失权重,确保模型在所有基础能力上得到均衡发展。

2.2 真实环境在线强化学习 (Online Agentic RL in the Wild)

在线学习是解决分布偏移问题的关键。为此,我们构建了一套支持在真实Web环境中进行大规模在线强化学习的系统。

1. 四层RL基础设施:该系统分为决策层、执行层、基础设施层和环境层。VLM代理在决策层生成动作,通过Playwright引擎在执行层被解析并分发至分布式浏览器集群,与环境层中的真实网站(包括自部署的WebArena环境)进行交互,最终将包含截图和DOM的观测数据反馈回决策层,形成一个完整的闭环交互与数据采集流程。

2. 混合奖励机制 (Hybrid Reward Mechanism):在没有真值(Ground-truth)轨迹的真实环境中,如何为智能体的探索行为提供有效监督信号至关重要。我们设计了一种混合奖励机制:

  • 基于规则的决策树 (RDT) 进行过程监督:为智能体的每一步提供即时反馈。该机制通过一系列规则判断动作的有效性,如是否产生页面视觉变化、是否点击在可交互元素上等,对无效或冗余的动作给予惩罚。
  • 基于VLM的WebJudge进行结果评估:在一条轨迹(trajectory)结束后,引入一个强大的VLM评估器WebJudge,从任务完成度、动作有效性和路径效率三个维度对整个轨迹进行综合评分,作为最终的稀疏奖励信号。

这种结合了稠密过程奖励和稀疏结果奖励的机制,为模型在真实环境中的策略优化提供了稳定且全面的监督。

2.3 Operator Agentic 模块化智能体架构

对于长时程、多步骤的复杂任务,单一模型的决策能力有限。我们因此设计了一个包含四个专业角色的模块化协作架构,以提升任务执行的鲁棒性和成功率。

模块

核心职责

主要输出

Planner (规划器)

任务分解与策略制定

语义化的步骤指令

Grounder (定位器)

将语义指令映射到UI坐标

标准化的工具调用(Tool Call)

Reflector (反思器)

验证动作效果,监控任务进展

反思信号与中间笔记

Summarizer (总结器)

综合轨迹信息,生成最终答案

整合后的最终答案

该架构通过一个“规划-执行-反思”的迭代循环运作:Planner根据全局目标和当前状态生成高层指令,Grounder将其翻译为具体动作并执行,Reflector在动作后评估状态变化并判断是否需要重新规划。这种机制实现了有效的错误检测与自我修正。

三、实验与结果

我们在多个基准上对OpAgent框架的各组件进行了充分评估。

单模型性能
经过在线RL优化的单模型(Qwen3-VL-32B-Thinking + RL-HybridReward-Zero)在WebArena上取得了38.1%的成功率(Pass@5),显著超越了原始基线模型(27.4%)以及其他采用类似Test-Time Training (TTT) 策略的方法。

Pass@K分析
对比RL优化前后的模型在不同Pass@K下的表现,可以看到随着尝试次数K的增加,RL优化后模型的性能优势愈发明显,Pass@5的绝对提升达到10.66%。这表明在线强化学习显著增强了模型决策的鲁棒性。

Agentic Architecture性能
最终,集成了所有优化的OpAgent整体框架(使用Gemini-3-Pro作为部分模块后端,Qwen2.5-VL-MFT作为Grounder),在WebArena上达到了71.6%的成功率,刷新了该基准的SOTA记录,并登顶排行榜。

四、总结与展望

本文介绍了蚂蚁全模态代码算法团队在Web智能体方向的最新研究成果OpAgent。通过在多任务微调、真实环境在线强化学习以及模块化智能体架构等方面的探索,我们显著提升了Web智能体在复杂动态环境中的任务执行能力,并在WebArena基准上取得了SOTA性能。

当前工作在实现高性能的同时,仍一定程度上依赖于精细的提示工程和多智能体的复杂编排。未来的研究方向将包括提升单模型内在的探索与泛化能力,以期减少对复杂框架的依赖,实现更加通用和高效的自主智能体。

关于我们

我们是蚂蚁集团智能平台工程的全模态代码算法团队。团队成立3年以来,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等顶级会议发表论文20余篇,两次获得蚂蚁技术最高奖 T-Star,1次蚂蚁集团最高奖 SuperMA,我们研发的CodeFuse 项目连续两年蝉联学术开源先锋项目。

团队常年招聘研究型实习生,有志于 NLP、大模型、多模态、图神经网络的同学欢迎联系 hyu.hugo@antgroup.com,期待与你一起,探索AI的无限可能!🌟

如果您想更快地获取到最新信息,欢迎加入我们的微信群。

企业用户如有需求,加入群聊时还可私聊“CodeFuse服务助手”联系解决方案专家~

已经博主授权,源码转载自 https://pan.quark.cn/s/e577710b7191 ### 解决Win10系统中Word文件图标显示不正常问题 #### 问题描述 在Windows 10操作系统中,部分用户遇到Word文档图标呈现非正常状态的问题。具体表现为:本应展示为Microsoft Word图标的DOC或DOCX文件,在系统中却呈现为常规的文本文件图标。这种现象不仅降低了用户的视觉体验,还可能引发一定的操作不便。 #### 解决方案 ##### 方法一:借助注册表编辑来纠正图标显示异常 1. **进行注册表备份**:为了保障系统的稳定性,在开展任何注册表修改之前,必须对注册表进行备份。可以通过“导出”功能来达成备份目的。 - 启动“运行”对话框(快捷键:`Windows + R`),键入`regedit`,随后按回车键进入注册表编辑界面。 - 在注册表编辑界面中,找到菜单栏里的“文件”选项,点击后选择“导出”,依照提示完成注册表备份。 2. **移除相关注册表项**: - 在`HKEY_CLASSES_ROOT`下,删除以下四个注册表项: - `.doc` - `.docx` - `Word.Document.8` - `Word.Document.12` - 在`HKEY_LOCAL_MACHINE\SOFTWARE\Classes`下,同样移除上述四个注册表项。 3. **重新启动计算机**:执行完上述步骤后,重新启动计算机以使修改生效。 #### 方法二:通过调整文件关联来纠正图标显示异常 如果第一种方法未能解决难题,则可以尝试调整文件的关联方式,具体步骤如下: 1. **移除文件关联**: - 在`HKEY_CLASSES_ROOT`下删除`....
源码直接下载地址: https://pan.quark.cn/s/a4b39357ea24 台达VFD037E43A变频器使用说明书包含了产品的基础安装、操作及维护等方面的全面信息,以下为其知识要点具体阐述: 1. 安全操作注意事项:在操作台达VFD037E43A变频器之前,说明书着重指出必须研读安全信息以保障操作人员与设备的双重安全。使用前应核实电源已切断,防止触碰带电线路,同时对内部电路板的静电防护措施也做了规定。此外,说明书还明确禁止非专业人员擅自改装变频器。 2. 接地规范:说明书说明了230V和460V系列变频器分别遵循第三类接地和特殊接地标准,从而确保了安全接地的合规性。 3. 安装与连接:说明书详尽说明了产品装置、搬运、接线方法、主回路端子及控制回路端子等环节,为用户正确配置和连接变频器提供了指导。 4. 零件选择:说明书内含零件选购参考,协助用户依据实际需求挑选适配的零件。 5. 参数调节:说明书中的“参数索引”及“参数深入解释”部分指导用户如何设定和调整变频器的运行参数。 6. 应用案例:在“成功实施案例”部分,说明书以实例形式向用户展示变频器在不同工作场景下的应用技巧。 7. 问题诊断:说明书提供了“警示代码解析”和“错误代码解析”,帮助用户识别变频器的常见故障并进行排除。 8. 通讯方式:说明书介绍了“CANopen通讯基础”和“BACnet应用指南及流程”,使用户能够掌握如何通过这些通讯方式将变频器融入工业自动化系统。 9. 特殊功能介绍:说明书还收录了“可编程逻辑控制器应用”和“PT100操作指南”,阐述了变频器的可编程逻辑控制器特性及温度传感器操作方法。 10. 网站与升级:说明书指出产品资料如有变动可通过台达电子工业自动化类产品的官方网...
代码下载地址: https://pan.quark.cn/s/a4b39357ea24 ST-Link V2是一种被普遍采用用于调试和编程的工具,其核心应用对象是STMicroelectronics(简称ST)所推出的STM32与STM8微控制器系列。在产品的设计与开发阶段,ST-Link V2占据着不可或缺的地位,它赋予工程师执行代码传输、程序调试以及硬件检测的能力。为了运用该设备,进行ST-Link V2驱动程序的安装是必要的前置工作。针对不同操作系统的环境,驱动程序的安装方式需做出相应的适配。举例来说,若在Windows XP环境下运作,应选择安装"ST-LINKV2USBdriver1.04forWindows7,VistaandXP.zip"这一驱动包;而对于Windows 7或Windows 8系统,则需安装"ST-LINKV2USBdriver1.0forWindows7andWindows8,32and64bits.zip"版本。整个安装流程一般包含以下环节:首先对下载的文件进行解压缩处理,随后双击运行安装文件,依照提示点击"Next"与"Install"按钮,最后通过点击"Finish"来完成安装操作。一旦驱动安装成功,用户应能在设备管理器中查找到ST-Link V2仿真器,且该设备的电源指示灯应呈现持续点亮的状态。关于软件的安装,针对STM32微控制器配备的软件工具是STM32 ST-LINK Utility,而STM8微控制器则采用ST Visual Develop(简称STVD)环境中的ST Visual Programmer(简称STVP)。安装这些软件时,通常需要启动安装程序,并遵循安装向导的步骤来达成整个安装任务。在开展STM32的...
代码转载自:https://pan.quark.cn/s/8ce4326d996e 对于在 CentOS 7 系统中修改网卡配置文件后无法使设置生效的情况,经过实践验证,可以通过使用 nmcli 命令来进行调整。完成修改之后,需要重新启动虚拟机以使更改生效,这样操作流程即告完成。如果设置仍然无法生效,则表明虚拟机在启动过程中所获取的 IP 地址配置并非针对 eth0,此时可以对其它网卡的配置文件进行修改或将其移除。在 CentOS 7 系统中,网络配置的管理机制与早期版本存在差异,主要体现为采用了 Network Manager 服务来负责网络接口的管理。在某些情形下,尽管修改了 `/etc/sysconfig/network-scripts` 目录下的 `ifcfg-eth0` 文件,但网络配置却未能即时生效。此类问题的发生通常源于 CentOS 7 采用了不同于以往的配置读取方法。接下来将具体阐述如何借助 nmcli 命令来处理这一挑战。 以 root 用户身份登录系统并打开终端界面。nmcli 是 Network Manager 提供的命令行界面工具,它支持在命令行环境下执行网络连接的建立、编辑、查询及管理任务。针对修改 eth0 网卡配置的需求,可以遵循以下步骤进行操作: 1. 导航至 `/etc/sysconfig/network-scripts` 目录: ``` cd /etc/sysconfig/network-scripts ``` 2. 检查该目录内是否存在 `ifcfg-eth0.bak` 文件,该备份文件可能是先前调整配置时遗留下来的,若存在可能造成冲突。若发现该文件,可以选择将其删除: ``` [root@localhost netw...
源码下载地址: https://pan.quark.cn/s/a4b39357ea24 谷歌公司设计了一款无费用且具备开源特性的网络浏览器,名为Chrome,因其卓越的速度、稳定性和安全性而广受赞誉。该浏览器运用了前沿的Web渲染引擎Blink以及JavaScript引擎V8,旨在保障网页载入与脚本运行的卓越效能。为应对无网络环境下的Chrome安装需求,特别准备了离线安装包。此压缩文件内含32位与64位两种规格的Chrome浏览器离线安装方案,具体文件名分别为"chromedev_x64-v68.0.3423.2.exe"与"chromedev_x86-v68.0.3423.2.exe"。在文件命名中,"x64"标识64位版本,适用于64位操作系统平台,而"x86"则对应32位版本,适配32位操作系统。文件名中的"v68.0.3423.2"代表Chrome的一个特定版本号,各版本可能涵盖安全补丁、性能改进或新增功能。与32位Chrome相比,64位版本具备如下长处:能够处理更多内存容量,从而提升多任务作业能力;针对现代硬件的优化使其运行更为迅猛;64位版本更具备高级别的安全防护,能更周全地抵御恶意软件的侵袭。尽管如此,32位版本对于仍在使用32位操作系统的用户,或是在系统资源需求不高的场景下,依然适用。在部署Chrome浏览器时,用户需依据其个人计算机的操作系统平台,挑选匹配的版本进行安装。通过双击相应的.exe文件,安装流程将自动启动,一般包含接受使用许可、确定安装路径及构建桌面快捷方式等环节。若在安装阶段遭遇难题,可参照提示信息或联系技术支援获取协助,同时该压缩文件发布者亦表明欢迎用户以留言形式反映问题。Chrome浏览器的主要特质涵盖:直观的用户界面设计...
源码直接下载地址: https://pan.quark.cn/s/65a25f5da9d4 ### 昆仑通态MCGS脚本函数详述 #### 一、运行环境操作函数概述 昆仑通态MCGS作为在工业自动化领域内广泛应用的组态软件,提供了丰富的脚本函数工具,用以辅助用户达成复杂的控制逻辑构建和数据处理任务。此类脚本函数能够应用于运行环境的多种操作,涵盖了诸如调整循环策略的时间间隔、操控窗口的开启与闭合状态、调控策略的启动与停止等多个方面。以下将具体阐释部分核心的运行环境操作函数。 #### 二、函数详解 ##### 1. **!ChangeLoopStgy(StgyName, n)** - **函数作用**:此函数用于调整特定循环策略的循环周期。 - **返回值**:数值型数据。当调用成功时返回0,若调用未成功则返回非零值。 - **参数**: - `StgyName`:指代循环策略的名称标识。 - `n`:新的循环时间长度,单位为毫秒。 - **实例**:`!ChangeLoopStgy("报警策略", 5000)` 将“报警策略”的循环周期设置为5秒。 ##### 2. **!CloseAllWindow(WndName)** - **函数作用**:该函数执行关闭所有窗口的操作。若指定了特定的窗口名称`WndName`,则仅保留该窗口而关闭其他所有窗口;若无指定或`WndName`为空字符串,则执行关闭所有窗口的操作。 - **返回值**:数值型数据。调用成功时返回0,失败时返回非零值。 - **参数**: - `WndName`:用户窗口的名称标识。 - **实例**:`!CloseAllWindow("工况图")` 将关闭除“工况图”窗口外的所有其他窗口。 ####...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值