谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐


人类和四足机器人之间简单有效的交互是创造能干的智能助理机器人的途径,其昭示着这样一个未来:技术以超乎我们想象的方式改善我们的生活。对于这样的人类-机器人交互系统,关键是让四足机器人有能力响应自然语言指令。

近来大型语言模型(LLM)发展迅速,已经展现出了执行高层规划的潜力。然而,对 LLM 来说,理解低层指令依然很难,比如关节角度目标或电机扭矩,尤其是对于本身就不稳定、必需高频控制信号的足式机器人。因此,大多数现有工作都会假设已为 LLM 提供了决定机器人行为的高层 API,而这就从根本上限制了系统的表现能力。

在 CoRL 2025 论文《SayTap: Language to Quadrupedal Locomotion》中,谷歌 DeepMind 与东京大学提出了一种新方法,该方法使用足部接触模式作为连接人类的自然语言指令与输出低层命令的运动控制器的桥梁。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

  • 论文地址:https://arxiv.org/abs/2306.07580
  • 项目网站:https://saytap.github.io/

足部接触模式(foot contact pattern)是指四足智能体在移动时足放在地上的顺序和方式。他们基于此开发出了一种交互式四足机器人系统,让用户可以灵活地制定不同的运动行为,比如用户可以使用简单的语言命令机器人走、跑、跳或执行其它动作。

他们的贡献包括一种 LLM prompt 设计、一个奖励函数和一种能让 SayTap 控制器使用可行的接触模式分布的方法。

研究表明 SayTap 控制器能够实现多种运动模式,并且这些能力还能迁移用于真实机器人硬件。

SayTap 方法

SayTap 方法使用了一种接触模式模板,该模板是一个由 0 和 1 构成的 4 X T 矩阵,其中 0 表示智能体的脚在空中,1 表示脚落在地面。从上至下,该矩阵的每一行分别给出了左前足(FL)、右前足(FR)、左后足(RL)、右后足(RR)的足部接触模式。SayTap 的控制频率为 50 Hz,即每个 0 或 1 持续 0.02 秒。这项研究将所需足部接触模式定义为一个大小为 L_w、形状为 4 X L_w 的循环滑动窗口。该滑动窗口会从接触模式模板提取四足的接地标志,其指示了在时间 t + 1 和 t + L_w 之间机器人足是在地面还是在空中。下图给出了 SayTap 方法的概况。

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

SayTap 方法概述

SayTap 引入的所需足部接触模式可作为自然语言用户命令与运动控制器之间的新接口。运动控制器是用于完成主要任务的(比如遵循指定的速度)以及用于在特定时间将机器人足放在地上,以使实现的足部接触模式尽可能接近所需的接触模式。

为了做到这一点,在每个时间步骤,运动控制器以所需的足部接触模式为输入,再加上本体感官数据(如关节位置和速度)及任务相关输入(如特定于用户的速度命令)。DeepMind 使用了强化学习来训练该运动控制器,并将其表征成一个深度神经网络。在控制器的训练期间,研究者使用了一个随机生成器来采样所需的足部接触模式,然后优化策略以输出能实现所需足部接触模式的低层机器人动作。而在测试时间,则是使用 LLM 将用户指令转译成足部接触模式。

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

SayTap 使用足部接触模式作为连接自然语言用户指令和低层控制命令的桥梁。SayTap 既支持简单直接的指令(比如「向前慢速小跑」),也支持模糊的用户命令(比如「好消息,我们这个周末去野餐!)。通过基于强化学习的运动控制器,能让四足机器人根据命令做出反应。

研究表明:使用适当设计的 prompt,LLM 有能力准确地将用户命令映射到特定格式的足部接触模式模板中,即便用户命令是非结构化的或模糊的。在训练中,研究者使用随机模式生成器生成了多种接触模式模板,它们有不同的模式长度 T、基于给定步态类型 G 在一个周期内的足地接触比,使得运动控制器能够在广泛的运动模式分布上学习,获得更好的泛化能力。更多详情请参阅论文。

实验结果

使用一个仅包含三种常见足部接触模式上下文样本的简单 prompt,LLM 可将各种人类命令准确地转译成接触模式,甚至泛化用于那些没有明确指定机器人应当如何行为的情况。

SayTap prompt 简洁紧凑,包含四个组分:

(1) 用于描述 LLM 应完成的任务的一般性说明;
(2) 步态定义,用于提醒 LLM 关注有关四足步态的基本知识以及它们与情绪的关联;
(3) 输出格式定义;
(4) 演示示例,让 LLM 学习在上下文中的情况。

研究者还设定了五种速度,让机器人可以前进或后退、快速或慢速、或保持不动。

遵循简单和直接的命令

下面的动图展示了 SayTap 成功执行直接清晰命令的示例。尽管某些命令并不包含在三个上下文示例之中,但依然可以引导 LLM 表达出其在预训练阶段学习到的内部知识,这会用到 prompt 中的「步态定义模块」,即上面 prompt 中第二个模块。

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

遵循非结构化或模糊的命令

但更有趣的是 SayTap 处理非结构化和模糊指令的能力。只需一点提示即可将某些步态与一般情绪印象联系起来,比如机器人在听到让其兴奋的消息(如「我们去野餐吧!」)后会上下跳跃。此外,它还能准确地呈现出场景,比如当被告知地面非常热时,机器人会快速移动,让脚尽量少接触地面。

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

SCISPACE SCISPACE

AI论文研究助手,探索和解释论文的平台

SCISPACE 65 查看详情 SCISPACE

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令

听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令


总结和未来工作

SayTap 是一个用于四足机器人的交互式系统,其允许用户灵活地制定不同的运动行为。SayTap 引入了所需足部接触模式作为自然语言与低层控制器之间的接口。这种新接口简单直接又很灵活,此外,它既支持机器人遵循直接指令,也支持机器人遵从没有明确说明机器人行为方式的命令。

DeepMind 的研究者表示,未来一大研究方向是测试暗含特定感受的命令是否能让 LLM 输出所需步态。在上面结果的步态定义模块中,研究者提供了一个将开心情绪与跳动步态联系起来的句子。如果能提供更多信息,也许能增强 LLM 解释命令的能力,比如解读隐含的感受。在实验评估中,开心情绪与跳动步态的联系能让机器人在遵从模糊的人类指令行动时表现得充满活力。另一个有趣的未来研究方向是引入多模态输入,比如视频和音频。理论上讲,从这些信号转译而来的足部接触模式也适用于这里新提出的工作流程,并有望开创更多有趣的用例。

原文链接:https://blog.research.google/2025/08/saytap-language-to-quadrupedal.html

以上就是谷歌用大型模型训练机器狗理解模糊指令,激动不已准备去野餐的详细内容,更多请关注其它相关文章!


# 还能  # 安徽seo外包打造企业  # 河北seo推广价格优惠  # aso优化和seo优化  # 大连seo推广营销  # 江西seo入门必选  # 首页关键词排名代做  # 关键词快速排名哪里  # 泉州网站推广企业排名榜  # 新手学seo 书籍  # 兰州榆中家装网站建设  # 结构化  # 四足机器人  # 放在  # 未来  # 是一个  # 慢速  # 能让  # 出了  # 自然语言  # 所需  # 交互式系统  # 理论 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 人工智能写作检测工具不靠谱,美国宪法竟被认为是机器人写的  华为昇腾AI原生支持30多种基础大模型,包括GPT  微软 GitHub Copilot 编程助手被投诉:换口吻改写公共代码来躲版权  Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等  280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了  物联网和人工智能的协同作用:释放预测性维护的潜力  李开复:未来几年,人工智能会革了所有人的命,除非你这么做  Unity发布Sentis和Muse AI工具,助力创作游戏和3D内容  磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元  研究发现AI聊天机器人ChatGPT不会讲笑话,只会重复25个老梗  苹果2万5的AR遭遇砍单95%:不及预期  推动企业数字化转型升级!“松江智造”摘世界人工智能大会重磅奖项  鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代  普林斯顿Infinigen矩阵开启!AI造物主100%创造大自然,逼真到炸裂  谷歌推出 AI 反洗钱工具,可将金融机构内部风险预警准确率提高2至4倍  “痴迷”元宇宙,魔珐科技想做什么?  商汤科技:元萝卜 AI 下棋机器人新品发布会 6 月 14 日举行  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?  Meta将VR头显最低年龄限制从13岁降至10岁  梦想实现!硬核科幻大片VR智能头盔即将问世  为什么很多人对纽约《人工智能招聘法》感到生气?  CharacterAI - 也许会成为会话人工智能的未来  人工智能进入绿植界,智能庭院市场初具规模  Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月  人手一部「*」!视频版Midjourney免费可用,一句话秒生酷炫大片惊呆网友  OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  阿里云连续两年进入Gartner云AI开发者“挑战者象限”  网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手  Dubbo负载均衡策略之 一致性哈希  “思享荟”沙龙热议AIGC与元宇宙 复旦大学赵星畅谈深度数字化  研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化  “聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办  跟着AI大热的“光模块”到底是什么?  【搞事】时隔4年 谷歌更新安卓logo 机器人头更饱满了  如何用AI开创智慧能源新时代?固德威正让能源“通人性”!  焊接协作机器人或将成为26届埃森展最大看点  利好来了,AI再起一波?  500元一张的AI艺术二维码制作,详细教程来了!  2025VR&AR显示技术峰会展示歌尔光学最新一代光学模组  苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO  QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手  0代码微调大模型火了,只需5步,成本低至150块  贫穷让我预训练  日入400万,第一批AI骗子已上岗  鸿蒙4即将支持大规模AI模型  云深处与昇腾CANN携手合作:开设ROS四足机器狗开发训练营  普渡机器人与变形金刚品牌合作,特别活动爆火,商品售罄!  组建团队,字节跳动要造机器人?  谷歌在人工智能领域没有“护城河”? 

 2024-01-16

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.