解放双手!OSCAR让操作系统交互实现自然语言「自由」


aixiv专栏:蒙特利尔大学mila研究所开源oscar,实现跨平台桌面ui自动化

AIxiv专栏长期关注人工智能领域前沿技术,已发表2000多篇来自全球顶尖高校和企业的学术及技术文章。如果您有优秀成果,欢迎投稿或联系报道 (liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com)。

本文作者王晓强,加拿大蒙特利尔大学和Mila人工智能研究所博士生,师从刘邦教授,主要研究方向为自然语言处理,专注于大语言模型能力评估及其在智能体中的应用,并在ACL、EMNLP等顶级会议发表多篇论文。

通用人工智能(AGI)是人工智能研究的终极目标,旨在构建具备人类般广泛灵活智能的系统。实现AI与数字世界的有效交互至关重要,而桌面任务UI自动化是关键领域。

想象一下,只需语音指令,电脑就能自动完成复杂操作,这将极大提升效率。Anthropic的Computer use和OpenAI的Computer Using Agent(CUA)已取得突破,但它们依赖商用API。

蒙特利尔大学和Mila研究所的研究团队推出了开源解决方案OSCAR(Operating System Control via state-Aware reasoning and Re-Planning),它实现了跨平台(Windows、Ubuntu、Android)的桌面任务UI自动化,并已被ICLR录用。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

挑战与创新:

基于多模态大型语言模型(MLLM)的智能体在自动化领域表现出色,但其通用性差,难以适应复杂工作流和动态变化的UI环境。构建通用UI交互智能体面临以下挑战:统一控制接口、UI元素精准定位、以及对新UI环境的探索和重规划能力。

OSCAR的创新之处在于:

  • 灵活状态机与动态重规划: OSCAR采用状态机架构(Init、Observe、Plan、Execute、Verify),并通过实时反馈进行动态重规划,提高效率和适应性。

图片

Health AI健康云开放平台 Health AI健康云开放平台

专注于健康医疗垂直领域的AI技术开放平台

Health AI健康云开放平台 113 查看详情 Health AI健康云开放平台
  • 视觉和语义双重UI定位: OSCAR结合Set-of-Mark(SoM)提示技术和可访问性(A11Y)树,并添加描述性标签,实现精准的UI元素定位。

图片

  • 任务驱动重新规划: OSCAR将用户指令分解为子任务,并根据反馈对特定子任务进行重规划,避免整体重规划,提高效率。
  • 基于代码的动作: OSCAR利用元素ID或坐标,通过PyAutoGUI库生成控制代码,精确控制操作系统。

图片

图片

  • 论文题目:OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning
  • 论文链接:https://www.php.cn/link/c4aee399fbe5893f9bc44fa160ee3107

实验结果:

OSCAR在GAIA、OSWorld、AndroidWorld等基准数据集上表现优异,在复杂任务上的成功率显著高于其他方法。其规划效率也更高,重新规划次数更少,且每次规划更有效率。

图片图片图片图片图片

总结:

OSCAR凭借其灵活的状态机和动态重规划能力,为桌面和移动操作系统UI自动化提供了高效通用的解决方案,有望显著提升生产力,并开启操作系统交互新时代。其开源特性也方便开发者进一步改进和完善。

以上就是解放双手!OSCAR让操作系统交互实现自然语言「自由」的详细内容,更多请关注其它相关文章!


# oscar  # 产业  # 多家  # 开源  # 自然语言  # 蒙特利尔  # 一言  # ai  # 电脑  # 操作系统  # windows  # 绵阳网站建设的软件  # 网站如何优化好客服渠道  # 宁波正规网站推广定制  # 营销推广讲义 豆丁  # 日照网站建设的现状  # 兴国推广网络营销一体化  # 合肥营销推广运营团队  # seo和sem的软件  # 菏泽网站视频推广公司  # 连云港企业网站推广  # 多篇  # 提高效率  # 内测  # 生命科学 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: Bing 聊天机器人现支持在桌面端用语音提问  统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验  再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手  OPPO三方联合发布AI可持续发展白皮书,坚持发展健康AI生态  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  洞穴探险神器?可自主导航的单旋翼自旋无人机,效率更高!  《上古卷轴5》AI高清材质包优化游戏中所有怪物  联想创投携手12家被投企业MWC展示元宇宙、机器人等技术  全媒封面丨⑤商汤科技:原创AI算法“发电厂”  央广车联网亮相2025世界人工智能大会  掌阅科技入选北京市通用人工智能产业创新伙伴计划第二批成员名单  重塑未来生活的五项技术趋势  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  英国前首相:AI可能被用来制造“生物恐怖武器”  微软新出热乎论文:Transformer扩展到10亿token  郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会  黄仁勋:5年前,我们对AI抱有巨大期望  利用AI技术更好地发展农村电商  华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会  美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?  网易加速行业AI大模型应用,将覆盖100多个应用场景  时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体  创新科学家成功研发FAST激光靶标维护机器人  超级智能到底是什么?  聚焦WAIC|AI技术支撑大模型探索未来  导演郭帆:人工智能应用可能会影响《流浪地球 3》的创作开发  一图速览 | 十大脑机接口关键技术发布  生成式AI对云运维的3大挑战  第 66 届格莱美奖规定,AI 作品将无法获得评奖资格  广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建  定义人工智能的十个关键术语  曝索尼在开发新头显设备:游戏中使用AR技术  AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍  江永:精准施训提升通信无人机应急救援能力  华为发布两款AI存储新品  小米创始人雷军将揭示小米AI在年度演讲中的最新进展  OpenAI 为开发者推出 GPT 聊天机器人 API 大更新,同时降低价格  羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品  陈根教授:离人形机器人时代还有10年吗?  猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新  调查显示:实际上没有那么多人在用 ChatGPT  磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元  遵义市首次引入手术机器人,成功实施全膝关节置换术  爱设计 AI 一键生成 PPT 工具上线:输入标题即可生成 PPT  苹果式 AI 哲学:不着一字,处处落子  ChatGPT 可以设计机器人吗?  AI成政客博弈工具,美国大选真假难辨,律师们的生意来了  微软大牛加入ZOOM,AI人才大战打响  塑造全能智能管家:华为小艺AI加成应对大模型挑战 

 2025-02-04

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.