有效评估Agent实际表现,新型在线评测框架WebCanvas来了


潘奕琛:浙江大学硕士一年级研究生。孔德涵:跨越星空科技模型算法负责人。周思达:南昌大学 2025 届毕业生,将于西安电子科技大学攻读硕士。崔成:浙江中医药大学 2025 届毕业生,将于苏州大学攻读硕士。

潘奕琛、周思达、崔成以跨越星空科技算法实习生的身份共同完成了本论文的研究工作。

在当今科技迅速发展的时代,大型语言模型(Large Language Model,LLM)正以前所未有的速度改变着我们与数字世界的互动方式。基于 LLM 的智能代理(LLM Agent),从简单的信息搜索到复杂的网页操作,它们正在逐步融入我们的生活。然而,一个关键问题仍然悬而未决:当这些 LLM Agent 踏入真实的在线网络世界时,它们的表现能否如预期般游刃有余?

现有的评测方法大多停留在静态数据集或模拟网站的层面。这些方法有其价值,但局限性显而易见:静态数据集难以捕捉网页环境的动态变化,如界面更新和内容迭代;而模拟网站则缺乏真实世界的复杂性,未能充分考虑跨站操作,例如使用搜索引擎等操作,这些因素在真实环境中是不可或缺的。

为破解这一难题,一篇题为《WebCanvas: Benchmarking Web Agents

in Online Environments》的论文提出了一种创新的在线评测框架 ——WebCanvas,旨在为 Agent 在真实网络世界中的表现提供一个全面的评估方法。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

  • 论文链接:https://arxiv.org/pdf/2406.12373

  • WebCanvas 平台链接:https://imean.ai/web-canvas

  • 项目代码链接:https://github.com/iMeanAI/WebCanvas

  • 数据集链接:https://huggingface.co/datasets/iMeanAI/Mind2Web-Live

WebCanvas 的创新点之一在于提出了 “关键节点” 的概念。这一概念不仅聚焦于任务的最终完成情况,还能够深入至任务执行过程的细节,确保评估的精准度。通过识别并检测任务流程中的关键节点 —— 无论是到达特定网页,还是执行特定操作(如点击特定的按钮),WebCanvas 为在线评估 Agent 提供了一个新的视角。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

WebCanvas 框架图。左侧展示的是任务的标注过程,右侧展示的是任务的评估过程。WebCanvas 考虑到了在线网络交互中任务路径的非唯一性,“奖杯” 代表成功到达每个关键节点后获得的步骤分数。

基于 WebCanvas 框架,作者构建了 Mind2Web-Live 数据集,该数据集包含从 Mind2Web 中随机挑选出的 542 个任务。本文作者还为数据集中的每个任务都标注了关键节点。通过一系列实验,我们发现,当 Agent 配备 Memory 模块,辅以 ReAct 推理框架,并搭载 GPT-4-turbo 模型后,其任务成功率提升至 23.1%。我们深信,随着技术的不断演进,Web Agent 的潜力依旧无限,这个数字将很快会被突破。

关键节点

“关键节点” 的概念是 WebCanvas 的核心思想之一。关键节点指的是完成特定网络任务过程中不可或缺的步骤,也就是说,无论完成任务的路径如何,这些步骤都是不可或缺的。这些步骤涵盖了访问特定网页以及在页面上执行特定操作,如填写表单或点击按钮。

以 WebCanvas 框架图绿色部分为例,用户需要在烂番茄网站上寻找评分最高的即将上映的冒险电影。他可以通过多种途径达到目的,比如从烂番茄的首页开始探索,或者直接通过搜索引擎定位置 “即将上映的电影” 页面。在筛选影片的过程中,用户可能先选择 “冒险” 类型,再根据受欢迎程度排序,或者反之亦然。虽然存在多条实现目标的路径,但进入特定页面并进行筛选是完成任务不可或缺的步骤。因此,这三个操作被定义为该任务的关键节点。

评估指标

WebCanvas 的评估体系分为两大部分:步骤得分和任务得分,两者共同构评估 WebAgent 综合能力。

  • 步骤得分:衡量 Agent 在关键节点上的表现,每个关键节点都与一个评估函数相关联,通过三种评估目标(URL、元素路径、元素值)和三种匹配函数(精确、包含、语义)来实现。每到达一个关键节点并通过评估函数,Agent 就能获得相应的分数。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

评估函数总览,其中 E 代表网页元素 Element

  • 任务得分:分为任务完成得分和效率得分。任务完成得分反映 Agent 是否成功拿到了此任务所有的步骤得分。而效率得分则考量了任务执行的资源利用率,计算方法为每个步骤得分所需的平均步骤数。

Mind2Web-Live 数据集

作者从 Mind2Web 训练集中随机抽取了 601 个与时间无关的任务,以及测试集 Cross-task 子集中的 179 个同样与时间无关的任务,然后将这些任务在真实在线环境中进行标注。最终,作者构建了由 542 个任务组成的 Mind2Web-Live 数据集, 其中包含了 438 个训练样本和 104 个用于测试的样本。下图直观地展示了标注结果和评估函数的分布。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

数据标注工具

数据标注过程中,作者使用了跨越星空科技开发的 iMean Builder 浏览器插件。该插件能够记录用户浏览器交互行为,包括但不限于点击、文本输入、悬浮、拖拽等动作,同时记录操作的具体类型、执行参数、目标元素的 Selector 路径,以及元素内容和页面坐标位置。此外,iMean Builder 还为每一步操作生成网页截图,为验证和维护工作流程提供了直观的展示。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

示例:使用 iMean Builder 插件注释两个不同的任务。(A) 在 Yelp 上查找加州提供免费 Wi-Fi 的豪华轿车停车场,(B) 在 Steam 上查找 Dota 2 游戏并将所有 DLC 添加到购物车中

数据维护

网络环境瞬息万变,网站内容的更新、用户界面的调整乃至站点的关闭都是不可避免的常态。这些变化可能导致先前定义的任务或关键节点失去时效性,从而影响评测的有效性和公平性。

为此,作者设计了一套数据维护方案,旨在确保评测集的持续相关性和准确性。在数据收集阶段,除了标注关键节点外,iMean Builder 插件还能够详细记录每一步工作流执行的信息,包括动作类型、Selector 路径、元素值以及坐标位置等。后续使用 iMean Replay SDK 的元素匹配策略就能重现工作流动作,并及时发现并报告工作流或评估函数中的任何无效情况。

通过此方案,我们有效解决了流程失效带来的挑战,确保了评测数据集能够适应网络世界的不断演变,为自动化评测 Agent 的能力提供了坚实的基础。

码上飞 码上飞

码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。

码上飞 430 查看详情 码上飞

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

数据管理平台

在 WebCanvas 网站上,用户可以清晰地浏览所有已录制的任务流程及其关键节点,也能够迅速向平台管理员反馈失效的流程,确保数据的时效性和准确性。

同时,作者鼓励社区成员积极参与,共同构建一个良好的生态系统。无论是维护现有数据的完整性,还是开发更先进的 Agent 进行测试,甚至是创造全新的数据集,WebCanvas 都欢迎各种形式的贡献。这不仅促进了数据质量的提升,还鼓励技术创新,能够形成良性循环推动整个领域向前发展。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

WebCanvas 网站首页

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

Mind2Web-Live 数据集的可视化展示

基础 Agent 框架

作者构建了一个全面的 Agent 框架,旨在优化 Agent 在在线网络环境下的任务执行效率。该框架主要由四个关键组件组成:规划(Planning)、观察(Observation)、记忆(Memory)以及奖励(Reward)模块。

  • 规划(Planning):基于 Accessibility Tree 的输入,Planning 模块运用 ReAct 推理框架进行逻辑推断,生成具体的操作指令。此模块的核心功能在于根据当前状态和任务目标,给出行动路径。

  • 观察(Observation):Agent 通过解析浏览器提供的 HTML 源代码,将其转换成 Accessibility Tree 结构。这一过程确保了 Agent 能够以标准化格式接收网页信息,便于后续分析和决策。

  • 记忆(Memory):Memory 模块负责存储 Agent 在任务执行过程中的历史数据,包括但不限于 Agent 的思考过程、过往的决策等。

  • 奖励(Reward):Reward 模块能对 Agent 的行为给予评价,包括对决策质量的反馈以及给出任务完成信号。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

基础 Agent 框架示意图

主要实验

作者使用基础 Agent 框架并接入不同 LLM 进行评估(不含 Reward 模块)。实验结果如下图所示,其中 Completion Rate 指的是关键节点的达成率,Task Success Rate 指的是任务成功率。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

除此之外,作者还探索了 Reward 模块对 Agent 能力的影响,其中 (+) 号代表 Reward 信息中包含人类标注数据以及关键节点信息供 Agent 参考,Human Alignment 分数代表 Agent 与人类的对齐程度。初步实验的结果表明,在线网络环境中,Agent 并不能够通过 Self Reward 模块改善能力,但是整合了原始标注数据的 Reward 模块能够增强 Agent 的能力。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

实验分析

在附录中,作者对实验结果进行了分析,下图是任务复杂度与任务难度之间的关系,橙色线条描绘了关键节点达成率随任务复杂度增加的变化轨迹,而蓝色线条则反映了任务成功率随任务复杂度的变化轨迹。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

任务复杂度与任务难度之间的关系。"num of steps" 指的是标注数据中动作序列的长度,与关键节点的数量一起作为任务复杂度的参考。

下表是实验结果与地区、设备、系统之间的关系。

有效评估Agent实际表现,新型在线评测框架WebCanvas来了

总结

在推动 LLM 和 Agent 技术发展的征途上,构建一套适应真实网络环境的评测体系至关重要。本文聚焦于在瞬息万变的互联网世界中有效地评价 Agent 的表现。我们直面挑战,通过在开放的环境中界定关键节点和对应的评测函数达成了这一目标,并开发数据维护系统减小了后续维护成本。

经过不懈努力,我们已迈出了实质性的步伐,并向着建立稳健且精准的在线评测系统前进。然而,在动态的网络空间中进行评测并非易事,它引入了一系列在封闭、离线场景下未曾遭遇的复杂问题。在评测 Agent 的过程中,我们遇到了诸如网络连接不稳定、网站访问限制,以及评测函数的局限性等难题。这些问题凸显出在复杂的真实环境中,对 Agent 进行评测所面临的艰巨任务,要求我们不断精进调整 Agent 的推理和评测框架。

我们呼吁整个科研社区共同协作,以应对未知挑战,推动评测技术的革新与完善。我们坚信,只有通过持续的研究与实践,才能逐步克服这些障碍。我们期待着与同行们携手并进,共创 LLM Agent 的新纪元。

以上就是有效评估Agent实际表现,新型在线评测框架WebCanvas来了的详细内容,更多请关注其它相关文章!


# 丰田  # 安徽门户网站推广方案  # 南宁软文推广营销平台  # 三问政府网站建设  # seo代理 移动隔墙.cn  # 泉州湖南网站建设哪家好  # 网络营销SEO招聘  # 莆田网站建设模板  # 铁岭seo助手平台电话  # 毕业论文营销策划推广  # 扬州网站优化seo公司  # 就能  # 理论  # 都是  # 的是  # 工作流  # 不可或缺  # 指的是  # 这一  # 过程中  # 来了  # canva  # access  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 中国移动副总经理高同庆:打造人工智能时代的智能服务运营新范式  构建AI绘画网站的方法:使用API接口和调用步骤  昇腾AI大模型训推一体化解决方案将在WAIC发布  苹果AI战略与微软谷歌大相径庭,到底是领先还是落后?  传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台  AI框架生态峰会本周开幕 华为昇腾“朋友圈”再聚首 全球首个全模态大模型将登场  史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万  中国联通发布图文AI大模型,可实现以文生图、视频剪辑  华为AI大模型将融入HarmonyOS 4  有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光  参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器  OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练  小艺将具备大模型能力,鸿蒙4加速AI普及之路  英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练  学而思推出AI第一课:基于自研大模型的AIGC课程  首个算网生态体!中国移动元宇宙产业联盟正式成立  金山办公宣布与英伟达团队合作,加速WPS AI服务  大疆 Air 3 无人机售价和实物照片曝光  Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光  华为昇腾AI原生支持30多种基础大模型,包括GPT  谷歌推出 SAIF 框架,倡导安全环境下探索和发展人工智能  AI 助手 Copilot 上线,微软 Win11 Dev 预览版 Build 23493 发布  马斯克反讽人工智能AI炒作:“机器学习”本质就是统计  人工智能快速发展 打开就业新空间  第二届光合组织AI解决方案大赛赛果揭晓  看懂AI,找到增长新势能 | 笔记侠AI峰会等你来  0代码微调大模型火了,只需5步,成本低至150块  2025年的网络分区:人工智能和自动化如何改变事物  13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  新闻传闻:迪士尼可能采用人工智能来控制电影制作成本  Ai智能机器人,chat-免注册登入,直接使用新版gpt4.0!  DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU  ChatGPT大更新!OpenAI奉上程序员大礼包:API新增杀手级能力还降价,新模型、四倍上下文都来了  马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了  华为推出两款商用 AI 大模型存储新品,支持 1200 万 IOPS 性能  微软最新推出的NaturalSpeech2语音合成模型:提供更准确的语音重构,避免棒读效果  Meta将VR头显最低年龄限制从13岁降至10岁  人工智能在服务优化方面优缺点有哪些  《爱康未来之夜嘉宾官宣,携手共赴AI未来》  360发布认知型通用大模型“360智脑4.0” 全面接入360全家桶  学而思网校推出首个基于自研大模型的《人工智能第一课》  实现人工智能和物联网的协同运作  报道称亚马逊正在测试AI生成产品评价摘要  扎克·施奈德新片《月球叛军》曝剧照 机器人首度现身  2025 年开发者必须知道的六个 AI 工具  Unity发布Sentis和Muse AI工具,助力创作游戏和3D内容  首届全国体育人工智能大会在首都体育学院召开  谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型  人工智能在交通领域的革新:智能解决方案彻底改变交通方式  “世界人工智能之都”的新烦恼:AI热潮无法拉动大量就业 

 2024-07-17

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.