AI 智能体的炒作与现实:GPT-4 都撑不起,现实任务成功率不到15%


根据大语言模型的不断进化与自我革新,性能、准确度、稳定性都已经有了大幅的提升,这已经被各个基准问题集验证过了。

灵感PPT 灵感PPT

AI灵感PPT - 免费一键PPT生成工具

灵感PPT 308 查看详情 灵感PPT

但是,对于现有版本的 LLM 来说,它们的综合能力似乎并不能完全支撑得起 AI 智能体。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

AI 智能体的炒作与现实:GPT-4 都撑不起,现实任务成功率不到15%

AI技术已经在公共传媒空间内根深蒂固,担负着多模式、多任务、多领域促然已成为AI智能体在公共传媒空间内的必须要求,但是在具体的功能实践中所展现的实际效果却差强人意,这似乎也再次提醒各个AI智能体初创公司以及大型科技巨头认清现实:脚踏实地一点,先别把握子铺得太大,从AI增强功能开始做起。

近日,一篇就AI智能体在宣传和真实表现上的差距而撰写的博客中,强调了一个观点:“AI智能体在宣传上是个巨人,而现实却很不妙。”该博客指出了一些AI智能体在推广中夸大其能力和功能的现象,与其在实际应用中表现的差距。这引发了人们对于AI技术真正的可靠性和成熟程度的

不可否认的是,自主 AI 智能体能够执行复杂任务的前景已经引起极大的兴奋。通过与外部工具和功能的交互,LLMs 可以在没有人为干预的情况下完成多步骤的工作流程。

但现实证明,这比预期的要更具挑战性。

WebArena 排行榜(一个真实可复现的网络环境,用于评估实用智能体的性能)对 LLM 智能体在现实任务中的表现进行了基准测试,结果显示即使是表现最好的模型,成功率也只有 35.8%。

AI 智能体的炒作与现实:GPT-4 都撑不起,现实任务成功率不到15%

WebArena 排行榜对 LLM 智能体在现实任务中的表现进行的基准测试结果:SteP 模型在成功率指标上表现最为良好,达到了 35.8%,而知名的 GPT-4 的成功率仅达到了 14.9%。

什么是 AI 智能体?

「AI 智能体」这个术语并没有真正被定义,对智能体究竟是什么也存在很多的争议。

AI 智能体可以定义为「一个被赋予行动能力的 LLM(通常在 RAG 环境中进行函数调用),以便在环境中对如何执行任务做出高层次的决策。」

当前,构建 AI 智能体主要有以下两种架构方法:

  • 单一智能体:一个大型模型处理整个任务,并基于其全面的上下文理解做出所有决策和行动。这种方法利用了大型模型的涌现能力,避免了将任务分解所带来的信息丢失。
  • 多智能体系统:将任务分解为子任务,每个子任务由一个更小、更专业的智能体处理。与尝试使用一个难以控制和测试的大型通用智能体相比,人们可以使用许多更小的智能体来为特定子任务选择正确的策略。由于上下文窗口长度的限制或不同技能组合的需要等实际约束,这种方法有时是必要的。

理论上,具有无限上下文长度和完美注意力的单一智能体是理想的。由于上下文较短,在特定问题上,多智能体系统总是比单一系统效果差。

实践中的挑战

在见证了许多 AI 智能体的尝试之后,作者认为它们目前仍为时过早、成本过高、速度过慢且不够可靠。许多 AI 智能体初创公司似乎在等待一个模型突破,以开启智能体产品化的竞赛。

AI 智能体在实际运用中的表现并不够成熟,这体现在输出不精确、性能差强人意、成本较高、赔偿风险、无法获得用户信任等问题:

  • 可靠性:众所周知,LLMs 容易产生幻觉和不一致性。将多个 AI 步骤连接起来会加剧这些问题,尤其是对于需要精确输出的任务。
  • 性能和成本:GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函数调用方面表现不错,但它们仍然较慢且成本高,特别是如果需要进行循环和自动重试时。
  • 法律问题:公司可能需要对其智能体的错误负责。最近的一个例子是,加拿大航空被命令向一位被航空公司聊天机器人误导的客户赔偿。
  • 用户信任:AI 智能体的「黑箱」性质以及类似示例使得用户难以理解和信任其输出。在涉及支付或个人信息的敏感任务中(如支付账单、购物等),赢得用户信任将会很困难。

现实世界中的尝试

目前,以下几家初创公司正在涉足 AI 智能体领域,但大多数仍处于实验阶段或仅限邀请使用:

  • adept.ai - 融资 3.5 亿美元,但访问权限仍然非常有限。
  • MultiOn - 融资情况未知,他们的 API 优先方法看起来很有前景。
  • HypeWrite - 融资 280 万美元,起初是一个 AI 写作助手,后来扩展到智能体领域。
  • minion.ai - 最初引起了一些关注,但现在已经沉寂,仅有等候名单。

它们中似乎只有 MultiOn 在追求「给出指令并观察其执行」的方法,这与 AI 智能体的承诺更为一致。

其他所有公司都在走记录和重放的 RPA(record-and-replay)路线,这在现阶段可能是为保证可靠性所必需的。

同时,一些大公司也在将 AI 功能带到桌面和浏览器,并且看起来将会在系统层面上获得本地的 AI 集成。

OpenAI 宣布了他们的 Mac 桌面应用程序,可以与操作系统屏幕互动。

在 Google I/O 大会上,Google 演示了 Gemini 自动处理购物退货。

AI 智能体的炒作与现实:GPT-4 都撑不起,现实任务成功率不到15%

微软宣布了 Copilot Studio,它将允许开发人员构建 AI 智能体机器人。

AI 智能体的炒作与现实:GPT-4 都撑不起,现实任务成功率不到15%

这些技术演示令人印象深刻,人们可以拭目以待这些智能体功能在公开发布并在真实场景中测试时的表现,而不是仅限于精心挑选的演示案例。

AI 智能体将走向哪条路?

作者强调:「AI 智能体被过度炒作了,大多数还没有准备好用于关键任务。」

然而,随着基础模型和架构迅速进步,他表示人们仍可以期待看到更多成功的实际应用。

AI 智能体最有前途的前进道路可能是这样的:

  • 近期的重点应放在利用 AI 增强现有工具,而不是提供广泛的全自主独立服务。
  • 人机协同的方法,让人类参与监督和处理边缘案例。
  • 根据当前的能力和局限,设定不脱离现实的期望。

通过结合严格约束的 LLMs、良好的评估数据、人机协同监督和传统工程方法,就可以在自动化等复杂任务方面实现可靠且良好的结果。

对于 AI 智能体是否会自动化乏味重复的工作,例如网络抓取、填表和数据录入?

作者:「是的,绝对会。」

那 AI 智能体是否会在没有人们干预的情况下自动预订假期?

作者:「至少在近期内不太可能。」

原文链接:https://www.kadoa.com/blog/ai-agents-hype-vs-reality

以上就是AI 智能体的炒作与现实:GPT-4 都撑不起,现实任务成功率不到15%的详细内容,更多请关注其它相关文章!


# 智能体  # ai  # 小红  # 画出  # 达到了  # 差强人意  # 会在  # 他们的  # opus  # udio  # copilot  # claude  # gemini  # 品牌整合营销推广计划  # Seo标题观察期  # 光明网站建设  # 淘宝客免费新建网站推广  # 崂山网站建设电话  # 关于政府网站建设意见  # 家族信托营销推广方案  # 网站建设如何推销自己  # 广州购物网站建设文案  # 四川网站优化认证  # 是一个  # 而不是  # 的是  # 更小 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: DragGAN开源三天Star量23k,这又来一个DragDiffusion  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  江永:精准施训提升通信无人机应急救援能力  人脸识别+全景双摄+AI算法 萤石推动智能锁行业革新  IBM和NASA合作发布可追踪碳排放的开源AI基础模型  WHEE上线时间介绍  马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧  美妆行业在AI时代蓬勃发展  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  开创全新虚拟现实体验的Pimax Crystal VR头显  扎克·施奈德新片《月球叛军》曝剧照 机器人首度现身  亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资  Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩  马斯克回应“人工智能让一切变得更好”:我们已经是半机器人了  微软在 Bing 和 Edge 浏览器中拓展网购服务,帮用户选购心仪产品  如布AI口袋学习机S12 将亮相综艺节目《好样的!国货》  再度重仓 AI 赛道,SaaS 巨头 Salesforce 扩大 AIGC 风投基金规模  以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%  麦肯锡:到 2045 年左右,将有 50% 工作被 AI 接管  抢占新赛道 加快机器人产业集聚发展  人工智能驱动智能建筑会是未来趋势吗?  7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会  读创正式上线“读创AI聊”功能  大模型新品出现井喷,AI产业迎来新时代  2025智源大会AI安全话题备受关注,《人机对齐》新书首发  美图吴欣鸿:希望更多人用上AI时代的影像生产力工具  鸿蒙4即将支持大规模AI模型  GPT-4不能在麻省理工学院获得计算机科学学位  传字节内测对话式 AI 产品,代号「Grace」;马斯克嘲讽苹果 头显;比亚迪 F 品牌定名「方程豹」  英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练  华为盘古AI模型实现秒级全球气象预报时间缩短  马斯克回应人工智能拯救世界:人类已处于“半机器人”状态  报道称亚马逊正在测试AI生成产品评价摘要  视觉中国推出付费AI绘图功能:无版权可用  为了避免人工智能可能带来的灾难,我们要向核安全学习  独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机  苹果CEO库克:持续研究生成式人工智能技术  AI会帮我们把活干完吗?  机器人加速!稀土永磁也被带火,持续性如何?  上海发布大模型政策 打造AI“模”都  时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体  LinkedIn 推出生成式 AI 辅助撰写帖文功能,将向所有用户开放  闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景  AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  人工智能的变革之路:通过OpenAI的GPT-4漫游  OpenAI已向中国申请注册“GPT-5”商标,此前已在美国提交申请  乐天派桌面机器人加入小米米家生态系统,实现与其他智能设备的互联  京东 AI 大模型官宣 7 月 13 日发布,还有重磅合作  生成式人工智能来了,如何保护未成年人? | 社会科学报 

 2024-05-28

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.