家具家电通用三维图文大模型系统中的首创无需指导、泛化使用形象化模型


这几天,家务活都被机器人抢着干了。

前脚来自斯坦福的会用锅的机器人刚刚登场,后脚又来了个会用咖啡机的机器人 Figure-01 。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

Figure-01只需观看示范视频,再进行10小时的训练,就能熟练操作咖啡机。从放入咖啡胶囊到按下启动键,一气呵成。

然而,要使机器人能够独立学会使用各种家具和家电,遇到它们时不需要示范视频,这是一个难以解决的问题。这需要机器人具备强大的视觉感知和决策规划能力,以及精确的操纵技能。

现在,一个三维具身图文大模型系统为以上难题提供了新思路。该系统将基于三维视觉的精准几何感知模型与擅长规划的二维图文大模型结合了起来,无需样本数据,即可解决与家具家电有关的复杂长程任务。

这项研究由斯坦福大学的 Leonidas Guibas 教授、北京大学的王鹤教授团队,与智源人工智能研究院合作完成。

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

论文链接:https://arxiv.org/abs/2312.01307

项目主页:https://geometry.stanford.edu/projects/sage/

代码:https://github.com/geng-haoran/SAGE

研究问题概述

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

图 1:根据人类指令,机械臂能够无师自通地使用各种家用电器。

近日,PaLM-E 和 GPT-4V 带动了图文大模型在机器人任务规划中的应用,视觉语言引导下的泛化机器人操控成为了热门研究领域。

以往的常见方法是建立一个两层的系统,上层的图文大模型做规划和技能调度,下层的操控技能策略模型负责物理地执行动作。但当机器人在家务活中面对各种各样从未见过并且需要多步操作的家用电器时,现有方法中的上下两层都将束手无策。

以目前最先进的图文大模型 GPT-4V 为例,虽然它可以对单张图片进行文字描述,但涉及可操作零部件检测、计数、定位及状态估计时,它仍然错误百出。图二中的红色高亮部分是 GPT-4V 在描述抽屉柜、烤箱和立柜的图片时出现的各种错误。基于错误的描述,机器人再进行技能调度,显然不太可靠。

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

图 2:GPT-4V 不能很好处理计数,检测,定位,状态估计等泛化操控所关注的任务。

下层的操控技能策略模型负责在各种各样的实际情况中执行上层图文大模型给出的任务。现有的研究成果大部分是基于规则生硬地对一些已知物体的抓取点位和操作方式进行了编码,无法泛应对没见过的新物体类别。而基于端到端的操作模型(如 RT-1,RT-2 等)只使用了 RGB 模态,缺乏对距离的准确感知,对新环境中如高度等变化的泛化性较差。

受王鹤教授团队之前的 CVPR Highlight 工作 GAPartNet [1] 启迪,研究团队将重点放在了各种类别的家用电器中的通用零部件(GAPart)之上。虽然家用电器千变万化,但总有几样零件不可或缺,每个家电和这些通用的零件之间存在相似的几何和交互模式。

由此,研究团队在 GAPartNet [1] 这篇论文中引入了 GAPart 这一概念。GAPart 指可泛化可交互的零部件。GAPart 出现在不同类别的铰接物体上,例如,在保险箱,衣柜,冰箱中都能找到铰接门这种零件。如图 3,GAPartNet [1] 在各类物体上标注了 GAPart 的语义和位姿。

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

图3:GAPart:可泛化可交互的零部件[1]。

在之前研究的基础上,研究团队创造性地将基于三维视觉的 GAPart 引入了机器人的物体操控系统 SAGE 。SAGE 将通过可泛化的三维零件检测 (part detection),精确的位姿估计 (pose estimation) 为 VLM 和 LLM 提供信息。新方法在决策层解决了二维图文模型精细计算和推理能力不足的问题;在执行层,新方法通过基于 GAPart 位姿的鲁棒物理操作 API 实现了对各个零件的泛化性操作。

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover

SAGE 构成了首个三维具身图文大模型系统,为机器人从感知、物理交互再到反馈的全链路提供了新思路,为机器人能够智能、通用地操控家具家电等复杂物体探寻了一条可行的道路。

系统介绍

图 4 展示了 SAGE 的基本流程。首先,一个能够解读上下文的指令解释模块将解析输入机器人的指令和其观察结果,将这些解析转化为下一步机器人动作程序以及与其相关的语义部分。接下来,SAGE 将语义部分(如容器 container)与需要进行操作部分(如滑动按钮 slider button)对应起来,并生成动作(如按钮的 「按压 press」 动作)来完成任务。

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

图 4:方法概览。

为了方便大家理解整个系统流程,一起来看看在无需样本的情况下,让机械臂使用操作一款没见过的微波炉的例子。

指令解析:从视觉和指令输入到可执行的技能指令

输入指令和 RGBD 图像观测后,解释器首先使用 VLM 和 GAPartNet [1] 生成了场景描述。随后,LLM(GPT-4)将指令和场景描述作为输入,生成语义零件和动作程序。或者也可以在这个环节输入一个特定的用户手册。LLM 将基于输入生成一个可操作零件的目标。
首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统
图 5:场景描述的生成(以 zero-shot 使用微波炉为例)。

为了更好地协助动作生成,场景描述包含物体信息、零件信息以及一些与互动相关的信息。在生成场景描述之前,SAGE 还将采用专家级 GAPart 模型 [1] 为 VLM 生成专家描述作为提示。这种兼收了两种模型的优点的方法效果良好。
首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统
图 6:指令理解和运动规划(以 zero-shot 使用微波炉为例)。

零件交互信息的理解与感知
首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统
图 7:零件理解。

在输入观察结果的过程中,SAGE 综合了来自 GroundedSAM 的二维(2D)提示和来自 GAPartNet 的三维(3D)提示,然后这些提示被用作可操作零件的具体定位。研究团队利用 ScoreNet、非极大值抑制(NMS)和 PoseNet 等展示了新方法的感知结果。

其中:(1)对于零件感知评估基准,文章直接采用了 SAM [2]。然而,在操作流程中,文章使用了 GroundedSAM,它也考虑到了作为输入的语义零件。(2)如果大型语言模型(LLM)直接输出了一个可操作零件的目标,那么定位过程将被绕过。
首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统
图 8:零件理解(以 zero-shot 使用微波炉为例)。

动作生成

一旦将语义零件定位到可操作零件之上,SAGE 将在这个零件上生成可执行的操作动作。首先,SAGE 将估计零件的姿态,根据铰接类型(平移或旋转)计算铰接状态(零件轴线和位置)和可能的运动方向。然后,它再根据以上估算生成机器人操作零件的动作。

在启动微波炉这个任务中,SAGE 首先预测机械臂应该以一个初始夹爪姿态作为主要动作。再根据 GAPartNet [1] 中定义的预定策略产生动作。这个策略是根据零件姿态和铰接状态确定的。例如,为了打开一个带有旋转铰接的门,起始位置可以在门的边缘或把手上,其轨迹是沿着门铰链定向的圆弧。

交互反馈

到目前为止,研究团队只使用了一个初始观测来生成开环交互。这时,他们引入了一种机制,可以进一步利用在互动过程中获得的观测结果,更新感知结果并相应调整操作。为了实现这一目标,研究团队为互动过程中引入了一个两部分的反馈机制。

应当注意,在首次观测的感知过程中可能出现遮挡和估算错误。
首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统
图 9:直接开门不能打开,该轮交互失败(以 zero-shot 使用微波炉为例)。

为了解决这些问题,研究者们进而提出了一个模型,利用交互式观测 (Interactive Perception) 来增强操作。在整个互动过程中,目标夹持器和零件状态的跟踪得以保持。如果出现显著的偏差,规划器可以自行选择以下四种状态之一:「继续」、「转移到下一步」、「停止并重新规划」或 「成功」。

例如,如果设置夹持器沿着一个关节旋转 60 度,但门只打开了 15 度,大型语言模型(LLM)规划器会选择 「停止并重新规划」。这种互动跟踪模型确保 LLM 在互动过程中能够具体问题具体分析,在微波炉启动失败的挫折中也能重新「站起来」。

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

图 10:通过交互反馈和重新规划,机器人意识到按钮打开的方法并成功。

实验结果

研究团队首先搭建了一个大规模语言指导的铰接物体交互的测试基准。
首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统
图 11:SAPIEN 模拟实验。

他们使用了 SAPIEN 环境 [4] 进行了模拟实验,并设计了 12 项语言引导的铰接物体操作任务。对于微波炉、储物家具和橱柜的每个类别,各设计了 3 个任务,包括在不同初始状态下的开启状态和关闭状态。其他任务为「打开锅盖」、「按下遥控器的按钮」和「启动搅拌器」。实验结果显示,在几乎所有任务中 SAGE 都表现卓越。

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

图 12:真机演示。

研究团队同时也进行了大规模真实世界实验,他们使用 UFACTORY xArm 6 和多种不同的铰接物体进行操作。上图的左上部分展示了一个启动搅拌器的案例。搅拌器的顶部被感知为一个用于装果汁的容器,但其实际功能需要按下一个按钮来开启。SAGE 的框架有效地连接了其语义和动作理解,并成功执行了任务。

上图右上部分展示了机器人,需要按下(下压)紧急停止按钮来停止操作,旋转(向上)来重启。借助用户手册的辅助输入,在 SAGE 指导下的机械臂完成了这两个任务。上图底部的图片展示了开启微波炉任务中的更多细节。

首个无师自通、泛化使用各种家具家电的具身三维图文大模型系统

图 13:更多真机演示和指令解读示例。

总结

SAGE是首个能够生成通用的家具家电等复杂铰接物体操控指令的三维视觉语言模型框架。它通过在零件级别上连接物体语义和可操作性理解,将语言指令的动作转化为可执行的操控。

此外,文章还研究了将通用的大型视觉 / 语言模型与领域专家模型相结合的方法,以增强网络预测的全面性和正确性,更好地处理这些任务并实现最先进的性能。实验结果表明,该框架具有强大的泛化能力,可以在不同物体类别和任务上展示出优越的性能。此外,文章还为语言指导的铰接物体操作提供了一个新的基准测试。

团队介绍

SAGE 这一研究成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然(共同一作)、北京大学博士生魏松林(共同一作)、斯坦福大学博士生邓丛悦,沈博魁,指导老师为 Leonidas Guibas 教授和王鹤教授。

参考文献:

[1] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang,and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272,2025.

[2] Kirillov,Alexander,Eric Mintun,Nikhila R*i,Hanzi Mao,Chloe Rolland,Laura Gustafson,Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2025).

[3] Zhang,Hao,Feng Li,Shilong Liu,Lei Zhang,Hang Su,Jun Zhu,Lionel M。Ni,and Heung-Yeung Shum。"Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2025).

[4] Xiang,Fanbo,Yuzhe Qin,Kaichun Mo,Yikuan Xia,Hao Zhu,Fangchen Liu,Minghua Liu et al。"Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp。11097-11107。2025.

以上就是家具家电通用三维图文大模型系统中的首创无需指导、泛化使用形象化模型的详细内容,更多请关注其它相关文章!


# 展示了  # 语音搜索推广网站哪个好  # HP网站建设银行  # 芦山企业网站建设方案  # seo时间模型方案  # 天津女装关键词排名  # 廊坊网站百度排名推广  # 温州网站建设工作内容  # 北京网站推广营销哪家好  # 淘宝关键词批量排名查询  # 网站建设批复意见  # 这一  # 工程  # 按下  # 过程中  # 为例  # 北京大学  # 互动  # 斯坦福大学  # 首个  # 无师自通  # fig  # sage 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 游族AI创新院揭牌成立 推进AI赋能游戏业务  人工智能自己玩自己  “聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办  马斯克反讽人工智能AI炒作:“机器学习”本质就是统计  1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了  论文插图也能自动生成了,用到了扩散模型,还被ICLR接收  移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速  亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会  海南科技职业大学第25届中国机器人及人工智能大赛海南赛区荣获一等奖等114项  时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体  微软和谷歌面临的人工智能困境:需要投入大量资金才能获得盈利  北京公司实施AI技术,推行4.5天工作制,抵制996文化,提升员工工作幸福感  马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧  微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在  生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用  全面拥抱大模型浪潮,ISC 2025打造全球首场AI数字安全峰会  前特斯拉总监、OpenAI大牛Karpathy:我被自动驾驶分了心,AI智能体才是未来!  GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型  华为昇腾AI原生支持30多种基础大模型,包括GPT  首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布  日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?  无人机自主巡检为高海拔输电线路运维添“新彩”  AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量  酒店业将如何受益于人工智能的改变?  江永:精准施训提升通信无人机应急救援能力  英国前首相:AI可能被用来制造“生物恐怖武器”  奥比中光子公司和斯坦德机器人深度合作,共同推进新一代激光雷达的研发  稿见AI助手:提升写作效率与质量的必备工具  Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%  陈根:AI工具为游戏软件实时3D内容助力  优傲机器人的人机协作技术 助力中小企发展  鸿蒙4即将支持大规模AI模型  谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广  行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用  马斯克发推讽刺人工智能:机器学习的本质就是统计  大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务  Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收  马斯克发推讽刺人工智能,机器学习本质是统计?  喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新  华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿  人工智能的变革之路:通过OpenAI的GPT-4漫游  人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”  RoboNeo安装教程  WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相  上海发布大模型政策 打造AI“模”都  微软在德国举办MR研讨会,向女性分享元宇宙潜力  OpenAI夺冠:人工智能为云计算带来新变革  微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持  自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技? 

 2024-01-09

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.