这几天,家务活都被机器人抢着干了。
前脚来自斯坦福的会用锅的机器人刚刚登场,后脚又来了个会用咖啡机的机器人 Figure-01 。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Figure-01只需观看示范视频,再进行10小时的训练,就能熟练操作咖啡机。从放入咖啡胶囊到按下启动键,一气呵成。
然而,要使机器人能够独立学会使用各种家具和家电,遇到它们时不需要示范视频,这是一个难以解决的问题。这需要机器人具备强大的视觉感知和决策规划能力,以及精确的操纵技能。

论文链接:https://arxiv.org/abs/2312.01307
项目主页:https://geometry.stanford.edu/projects/sage/
代码:https://github.com/geng-haoran/SAGE
研究问题概述

图 1:根据人类指令,机械臂能够无师自通地使用各种家用电器。
近日,PaLM-E 和 GPT-4V 带动了图文大模
型在机器人任务规划中的应用,视觉语言引导下的泛化机器人操控成为了热门研究领域。
以往的常见方法是建立一个两层的系统,上层的图文大模型做规划和技能调度,下层的操控技能策略模型负责物理地执行动作。但当机器人在家务活中面对各种各样从未见过并且需要多步操作的家用电器时,现有方法中的上下两层都将束手无策。
以目前最先进的图文大模型 GPT-4V 为例,虽然它可以对单张图片进行文字描述,但涉及可操作零部件检测、计数、定位及状态估计时,它仍然错误百出。图二中的红色高亮部分是 GPT-4V 在描述抽屉柜、烤箱和立柜的图片时出现的各种错误。基于错误的描述,机器人再进行技能调度,显然不太可靠。

图 2:GPT-4V 不能很好处理计数,检测,定位,状态估计等泛化操控所关注的任务。
下层的操控技能策略模型负责在各种各样的实际情况中执行上层图文大模型给出的任务。现有的研究成果大部分是基于规则生硬地对一些已知物体的抓取点位和操作方式进行了编码,无法泛应对没见过的新物体类别。而基于端到端的操作模型(如 RT-1,RT-2 等)只使用了 RGB 模态,缺乏对距离的准确感知,对新环境中如高度等变化的泛化性较差。
受王鹤教授团队之前的 CVPR Highlight 工作 GAPartNet [1] 启迪,研究团队将重点放在了各种类别的家用电器中的通用零部件(GAPart)之上。虽然家用电器千变万化,但总有几样零件不可或缺,每个家电和这些通用的零件之间存在相似的几何和交互模式。
由此,研究团队在 GAPartNet [1] 这篇论文中引入了 GAPart 这一概念。GAPart 指可泛化可交互的零部件。GAPart 出现在不同类别的铰接物体上,例如,在保险箱,衣柜,冰箱中都能找到铰接门这种零件。如图 3,GAPartNet [1] 在各类物体上标注了 GAPart 的语义和位姿。

图3:GAPart:可泛化可交互的零部件[1]。
在之前研究的基础上,研究团队创造性地将基于三维视觉的 GAPart 引入了机器人的物体操控系统 SAGE 。SAGE 将通过可泛化的三维零件检测 (part detection),精确的位姿估计 (pose estimation) 为 VLM 和 LLM 提供信息。新方法在决策层解决了二维图文模型精细计算和推理能力不足的问题;在执行层,新方法通过基于 GAPart 位姿的鲁棒物理操作 API 实现了对各个零件的泛化性操作。
Remover
几秒钟去除图中不需要的元素
304
查看详情
SAGE 构成了首个三维具身图文大模型系统,为机器人从感知、物理交互再到反馈的全链路提供了新思路,为机器人能够智能、通用地操控家具家电等复杂物体探寻了一条可行的道路。
系统介绍
图 4 展示了 SAGE 的基本流程。首先,一个能够解读上下文的指令解释模块将解析输入机器人的指令和其观察结果,将这些解析转化为下一步机器人动作程序以及与其相关的语义部分。接下来,SAGE 将语义部分(如容器 container)与需要进行操作部分(如滑动按钮 slider button)对应起来,并生成动作(如按钮的 「按压 press」 动作)来完成任务。

图 4:方法概览。








图 12:真机演示。
研究团队同时也进行了大规模真实世界实验,他们使用 UFACTORY xArm 6 和多种不同的铰接物体进行操作。上图的左上部分展示了一个启动搅拌器的案例。搅拌器的顶部被感知为一个用于装果汁的容器,但其实际功能需要按下一个按钮来开启。SAGE 的框架有效地连接了其语义和动作理解,并成功执行了任务。
上图右上部分展示了机器人,需要按下(下压)紧急停止按钮来停止操作,旋转(向上)来重启。借助用户手册的辅助输入,在 SAGE 指导下的机械臂完成了这两个任务。上图底部的图片展示了开启微波炉任务中的更多细节。

图 13:更多真机演示和指令解读示例。
总结
团队介绍
SAGE 这一研究成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然(共同一作)、北京大学博士生魏松林(共同一作)、斯坦福大学博士生邓丛悦,沈博魁,指导老师为 Leonidas Guibas 教授和王鹤教授。
参考文献:
[1] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang,and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272,2025.
[2] Kirillov,Alexander,Eric Mintun,Nikhila R*i,Hanzi Mao,Chloe Rolland,Laura Gustafson,Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2025).
[3] Zhang,Hao,Feng Li,Shilong Liu,Lei Zhang,Hang Su,Jun Zhu,Lionel M。Ni,and Heung-Yeung Shum。"Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2025).
[4] Xiang,Fanbo,Yuzhe Qin,Kaichun Mo,Yikuan Xia,Hao Zhu,Fangchen Liu,Minghua Liu et al。"Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp。11097-11107。2025.
以上就是家具家电通用三维图文大模型系统中的首创无需指导、泛化使用形象化模型的详细内容,更多请关注其它相关文章!
# 展示了
# 语音搜索推广网站哪个好
# HP网站建设银行
# 芦山企业网站建设方案
# seo时间模型方案
# 天津女装关键词排名
# 廊坊网站百度排名推广
# 温州网站建设工作内容
# 北京网站推广营销哪家好
# 淘宝关键词批量排名查询
# 网站建设批复意见
# 这一
# 工程
# 按下
# 过程中
# 为例
# 北京大学
# 互动
# 斯坦福大学
# 首个
# 无师自通
# fig
# sage
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
游族AI创新院揭牌成立 推进AI赋能游戏业务
人工智能自己玩自己
“聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办
马斯克反讽人工智能AI炒作:“机器学习”本质就是统计
1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了
论文插图也能自动生成了,用到了扩散模型,还被ICLR接收
移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速
亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会
海南科技职业大学第25届中国机器人及人工智能大赛海南赛区荣获一等奖等114项
时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体
微软和谷歌面临的人工智能困境:需要投入大量资金才能获得盈利
北京公司实施AI技术,推行4.5天工作制,抵制996文化,提升员工工作幸福感
马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧
微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在
生成式AI引路产业加速来袭,微美全息探索“AIGC+虚拟人”融合应用
全面拥抱大模型浪潮,ISC 2025打造全球首场AI数字安全峰会
前特斯拉总监、OpenAI大牛Karpathy:我被自动驾驶分了心,AI智能体才是未来!
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型
华为昇腾AI原生支持30多种基础大模型,包括GPT
首部国内AI辅助动画片《魔游纪:人工智能辅助篇》预告发布
日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病
复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?
无人机自主巡检为高海拔输电线路运维添“新彩”
AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量
酒店业将如何受益于人工智能的改变?
江永:精准施训提升通信无人机应急救援能力
英国前首相:AI可能被用来制造“生物恐怖武器”
奥比中光子公司和斯坦德机器人深度合作,共同推进新一代激光雷达的研发
稿见AI助手:提升写作效率与质量的必备工具
Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%
陈根:AI工具为游戏软件实时3D内容助力
优傲机器人的人机协作技术 助力中小企发展
鸿蒙4即将支持大规模AI模型
谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广
行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用
马斯克发推讽刺人工智能:机器学习的本质就是统计
大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务
Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收
马斯克发推讽刺人工智能,机器学习本质是统计?
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
华为4G5G通信物联网收费标准公布,多年研发成果,十年花费近万亿
人工智能的变革之路:通过OpenAI的GPT-4漫游
人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”
RoboNeo安装教程
WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相
上海发布大模型政策 打造AI“模”都
微软在德国举办MR研讨会,向女性分享元宇宙潜力
OpenAI夺冠:人工智能为云计算带来新变革
微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持
自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技?
2024-01-09
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。