一夜之间,大模型像人一样操控电脑了!Claude 3.5重磅升级,抢先OpenAI
几个小时前,Claude 3.5 模型迎来了一波大更新。Anthropic 推出了升级版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。其中,升级版 Claude 3.5 Sonnet 的各项能力全面胜过之前版本,其中代码能力提升显著。Claude 3.5 Haiku 的性能则与之前最大模型 Claude 3 Opus 的性能相当,同时在成本和速度上与上一代 Haiku 相近。最值得关注的是,Claude 3.5 Sonnet 版本号虽未提升,但却迎来了史诗级大更新:能像人一样使用计算机了!最新版本的 Claude 3.5 Sonnet 能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。Anthropic 表示,Claude 3.5 Sonnet 是首个提供「计算机使用」能力公开 beta 测试的前沿 AI 模型,不过其也指出目前该工具还处于实验阶段 —— 有时候会很麻烦且容易出错。目前这个功能更多地是面向开发者,以便获得他们的使用反馈。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
目前,「使用计算机」功能已经有了公开测试版,大家可以申请试用。申请表单:https://docs.google.com/forms/d/e/1FAIpQLSeD3IqITWsuepB19SEv889HsBvN9WOi6HRblPrJNyA9G7q02w/viewform该功能发布后,网友纷纷点赞,都表示迫不及待想要尝试这个功能;当然也有网友对 Claude 3.5 Sonnet 依然使用原来的名称表达了深深地不解:「为什么这么大的更新却连模型版本号都不改一下?」并且发布不过几个小时,就已经有开发者尝试了 Claude 3.5 Sonnet 的这项新能力。网友 Mckay Wrigley 表示通过 API 使用这项新功能,设置时间不超过 10 分钟,而这项能力却能为 AI 开启无限可能,堪称 game changer。顺带一提,在 Anthropic 更新 Claude 3.5 的同时,热门 AI 编程工具 Cursor 也已经成功接入 Claude 系列模型。根据许多网友分享的截图,接入 Cursor 的 Claude 3.5 Sonnet 正是最新的 20251022 版本!另外,对于官方博客中缺少的与 OpenAI ο1 模型的性能对比,也已经有研究者抢先完成了。根据研究者 Austin Starks 的实验,最新版 Claude 3.5 Sonnet 的性能表现优于 OpenAI ο1-mini。他自己也对这一结果深表震惊。 详细报告请访问:https://medium.com/@austin-starks/cl
audes-new-3-5-sonnet-outperformed-openai-s-o1-mini-i-m-shocked-58c9ee1993ea为什么说这个功能很重要?我们知道,现代的大量工作都是通过计算机完成的。如果能让 AI 像人类一样直接与计算机软件交互,将解锁大量当前一代 AI 助手无法实现的应用。过去几年,强 AI 已经实现了一个又一个里程碑,举个例子,现在的强 AI 已经有能力执行复杂的逻辑推理和理解图像内容。下一个前沿就是使用计算机,AI 模型不必通过定制工具进行交互,而是能够遵照指示使用几乎任何软件。Anthropic 表示,他们之前在工具使用和多模态方面的工作为这些新的计算机使用技能奠定了基础。操作计算机需要查看和解释图像的能力 —— 这里的图像就是指计算机屏幕。它还需要推理能力,以了解以怎样的方式在什么时间执行特定的操作。整合这些能力后,Claude 便可具备解读屏幕内容并使用软件工具执行任务的能力。该公司举了个例子:如果用户是一名开发者,使用的软件有好几个,同时也已经给予了 Claude 适当的权限,那么 Claude 就可以查看用户能看到的屏幕,然后统计其所要移动的垂直和水平像素的数量,从而点击到正确位置。因此,准确统计像素数量的能力对 Claude 而言至关重要。没有这项技能,模型就难以发出鼠标指令 —— 类似于模型难以解决「banana 中有多少个 A?」 这样的问题。Anthropic 表示,在训练 Claude 使用计算机方面,仅使用少量简单软件(比如一个计算器和一个文本编辑器)进行的训练就让 Claude 可以泛化这种能力。这一点让开发团队自己都深感惊讶。至于为何使用这样的简单软件,该团队表示:「出于安全原因,我们并不允许模型在训练时访问互联网。」再结合 Claude 的其它能力,这种训练赋予了它非凡的能力,可以将用户的文本提示词转化为一系列逻辑步骤,然后在计算机上采取行动。开发团队观察到,如果遇阻,该模型甚至还能自我纠错并重试任务。他们表示:「虽然我们在取得初步突破后很快就取得了后续进展,但达到这一目标的过程经历了大量反复试验。」该公司的一些研究者指出,让 Claude 具备使用计算机的能力接近他们刚开始从事该领域时所描绘的 AI 研究的「理想化」过程:不断迭代和反复回到绘图板,直到取得进展。终于,研究获得了回报。目前,Claude 可以说是当之无愧的 SOTA 模型,其使用计算机的方式与人类相同 —— 即查看屏幕再采取行动。在 OSWorld 这项测试模型使用计算机的能力的评估基准上,Claude 当前的准确度为 14.9%,虽然远远不及人类水平(通常为 70-75%),但却远高于在此基准上排名第二的 AI 模型(7.8%)。当给予更多的步骤来完成任务时,Claude 得分为 22.0%。人工智能的每一次进步都会带来新的安全挑战。计算机的使用主要是降低人工智能系统应用现有认知技能的障碍,而不是从根本上提高这些技能,因此 Anthropic 对计算机使用的主要关注点是当前的危害,而不是未来的危害。Anthropic 通过评估计算机的使用是否会增加其《负责任扩展政策》中列出的前沿威胁(frontier threats)的风险来证实这一点。更新后的 Claude 3.5 Sonnet,包括其新的计算机使用技能,仍处于 AI Safety Level 2,也就是说,它不需要比 Anthropic 目前采取的安全措施更高标准的安全措施。未来的模型可能会带来灾难性的风险,计算机的使用可能会加剧这些风险,因此需要 AI Safety Level 3 或 4 的保障措施。Anthropic 认为现在引入计算机使用可能会更好,而模型仍然只需要 AI Safety Level 2 的保障。这意味着可以在风险过高之前开始解决任何安全问题。因此,Anthropic 的信任与安全团队对计算机使用模型进行了广泛的分析,以识别潜在的漏洞。他们发现的一个问题是「提示词注入」—— 一种网络攻击,会输入恶意指令到人工智能模型,导致其要么覆盖先前的指令,要么执行偏离用户原始意图的意外操作。由于 Claude 可以解读连接到互联网的计算机的屏幕截图,因此它可能会暴露于包含提示词注入攻击的内容。默认情况下,Anthropic 不会使用用户提交的数据(包括 Claude 收到的任何屏幕截图)来训练其生成式 AI 模型。计算机的使用是一种完全不同的人工智能开发方法。到目前为止,LLM 开发人员已经制作了适合模型的工具,生成了自定义环境,人工智能可以使用专门设计的工具来完成各种任务。现在,Anthropic 的研究者可以让模型适应工具 —— Claude 可以融入我们日常使用的计算机环境中。他们的目标是让 Claude 能够利用现有的计算机软件,并像人类一样简单地使用它们。研究者构建了一个 API,使 Claude 能够感知计算机界面并与之交互。该 API 使 Claude 能够将提示词翻译成计算机命令。开发人员可以使用它来自动执行重复性任务、进行测试和 QA 以及进行开放式研究。
研究者并没有制作专门的工具来帮助 Claude 完成个别任务,而是教它通用的计算机技能,让它能够使用为人类设计的各种标准工具和软件程序。
不过,Anthropic 还有很多工作要做。尽管目前 Claude 处于技术的最前沿,但它使用计算机的速度仍然缓慢且经常出错。人们在计算机上常规进行的许多操作(如拖动、缩放等)Claude 还无法完成。对于 Claude 来说,它观察到的屏幕「翻页」方式 —— 是通过拍摄屏幕截图并将它们拼接起来的方式,而不是观察更细粒度的视频流。这种方式意味着 Claude 可能会错过那些短暂的操作或通知。 甚至在录制计算机使用演示时,研究者也遇到了一些有趣的错误。其中一个错误是,Claude 不小心点击停止了长时间的屏幕录制,导致所有镜头都丢失。另一个错误是,Claude 突然中断了现场的编码演示,开始浏览黄石国家公园的照片。研究者预期对计算机的使用将迅速改进,变得更快、更可靠,并更有助于用户完成他们想要完成的任务。对于那些软件开发经验较少的人来说,实施起来也将变得更加容易。并且在每一个阶段,研究人员都将与安全团队紧密合作,确保 Claude 的新功能更加安全。Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索「计算机使用」的各种可能性,执行那些需要几十个、有时甚至几百个步骤才能完成的任务。例如,Replit 正在利用 Claude 3.5 Sonnet 的计算机使用和 UI 导航能力,为其 Replit Agent 产品开发一个关键功能,该功能可以在构建应用程序时评估这些应用程序。升级版的 Claude 3.5 Sonnet 现在对所有用户开放。从今天开始,开发者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用「计算机使用」的测试版进行构建。新的 Claude 3.5 Haiku 将在本月晚些时候发布。Claude 3.5 Sonnet:行业领先的软件工程技能更新版的 Claude 3.5 Sonnet 在行业基准测试中显示出广泛的改进,特别是在智能体编码和工具使用任务上取得了显著的提升。在编码方面,其在 SWE-bench Verified 上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型 —— 包括像 OpenAI o1-preview 这样的推理模型和专为智能体编码设计的专门系统。它在 TAU-bench 上的表现也有所提升,这是一个智能体工具使用任务,在零售领域的得分从 62.6% 提高到了 69.2%,在更具挑战性的航空领域则从 36.0% 提高到了 46.0%。新的 Claude 3.5 Sonnet 以与其前代相同的价格和速度提供了这些改进。早期客户反馈表明,升级版的 Claude 3.5 Sonnet 代表了 AI 驱动编码的重大飞跃。GitLab 针对 DevSecOps 任务对该模型进行了测试,发现它提供了更强的推理能力(在用例中高达 10%),并且没有增加延迟,这使其成为驱动多步骤软件开发流程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估,与前一版本相比,它在编码、规划和问题解决方面经历了显著的改进。The Browser Company 在用于自动化基于 Web 的工作流程时,注意到 Claude 3.5 Sonnet 的表现超过了他们之前测试过的每一个模型。Claude 3.5 Haiku:SOTA 技术与性价比和速度的结合Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。与 Claude 3 Haiku 的成本相同,速度相似,Claude 3.5 Haiku 在每项技能上都有改进,并且在许多智能基准测试上甚至超过了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在编码任务上尤其强大。例如,它在 SWE-bench Verified 上的得分为 40.6%,超过了使用公开可用的 SOTA 模型的许多智能体 —— 包括原始的 Claude 3.5 Sonnet 和 GPT-4o。凭借低延迟、改进的指令遵循和更准确的工具使用,Claude 3.5 Haiku 非常适合面向用户的产品、专门的 sub-agent 任务以及从大量数据(如购买历史、定价或库存记录)中生成个性化体验。Claude 3.5 Haiku 将于本月晚些时候通过 Anthropic 的第一方 API、Amazon Bedrock, 和谷歌云的 Vertex AI 提供 —— 最初作为仅限文本的模型,随后将支持图像输入。https://www.anthropic.com/news/3-5-models-and-computer-usehttps://www.anthropic.com/research/developing-computer-use以上就是一夜之间,大模型像人一样操控电脑了!Claude 3.5重磅升级,抢先OpenAI的详细内容,更多请关注其它相关文章!
# 该公司
# 网站营销推广霸屏技术
# seo商务网站推荐推广
# 蓟州区网站推广软文
# 企业网站为什么要做优化
# SEO文案情绪照片
# 濮阳seo百亿互刷宝
# 网站优化去找哪家
# 怀化全网营销推广加盟
# 无锡网站建设技术方案
# 外贸人怎么做网站优化
# 测试版
# 未来
# 但却
# 而不是
# 产业
# 互联网
# 他们的
# 它在
# 软件工程
# 升级版
# opus
# canva
# claude
# replit agent
# cursor
# ai
# 谷歌
# git
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
支持跨语言、人声狗吠互换,仅利用最近邻的简单语音转换模型有多神奇
以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%
华为HarmonyOS 4:享流畅提升20%,AI大模型更智能一览无余
复旦发布「新闻推荐生态系统模拟器」SimuLine:单机支持万名读者、千名创作者、100+轮次推荐
中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范
类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练
AI立法迫在眉睫,如何看对行业影响?
日媒:AI高效解析纳斯卡地画
英伟达CEO宣称生成式AI已迎来“划时代时刻”
移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速
SnapFusion技术大幅提升AI图像生成速度
清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!
乐天派桌面机器人加入小米米家生态系统,实现与其他智能设备的互联
普林斯顿Infinigen矩阵开启!AI造物主100%创造大自然,逼真到炸裂
生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型
国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍
揭晓2025年玻尔兹曼奖:Hopfield网络创始人荣获奖项
江永:精准施训提升通信无人机应急救援能力
美妆行业在AI时代蓬勃发展
VR健身应用《FitXR》将取消Quest 1端会员服务
谷歌旗下 DeepMind 开发出 RoboCat AI 模型,能控制多种机器人执行一系列任务
当TS遇上AI,会发生什么?
元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者
Midjourney创始人:AI应该成为人类思想的延伸
人形机器人打开精密齿轮市场全新空间!受益上市公司梳理
Bing 聊天机器人现支持在桌面端用语音提问
不到2S创作AI图像!Snap发布图像生成器SnapFusion
"探索Meta发布的Quest MR/VR视频录制与拍摄指南"
OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观
当一个网站的内容被 AI 完全接管
旷视入选北京市通用人工智能产业创新伙伴计划
央广车联网亮相2025世界人工智能大会
AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑
昌吉市利用无人机实现全天候河道动态巡检
Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%
在心理治疗中用VR技术,治疗成效显著提高
Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代
NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打
发布最新版本的 PICO OS 5.7.0:支持VR头盔录屏并跨平台分享至微信
猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新
一公司推出喷火机器狗,可喷出 9 米长火焰
精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*
阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型
微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取
360发布认知型通用大模型“360智脑4.0” 全面接入360全家桶
12页线性代数笔记登GitHub热榜,还获得了Gilbert Strang大神亲笔题词
人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求
食品分销跨国企业Sysco CIDO:我们的增长秘诀是以IT为中心
应用生成式人工智能技术改善农业产业
亲身体验鸿蒙4:AI大模型带来的便利,告别单纯的旁观者状态
2024-10-23