
谷歌DeepMind最新推出的Gemini Robotics项目,首次实现了让机器人在行动前具备“思考”能力的双模型协同系统。这一技术突破有望打破当前机器人仅能完成特定任务的瓶颈,推动其向更通用化方向发展。
尽管生成式AI已在文本、图像、音频和视频内容创作中广泛应用,如今这项技术正被延伸至机器人动作指令的生成领域。DeepMind研究团队强调,生成式AI对机器人学具有深远意义,因为它能够赋予机器人前所未有的通用性与适应能力。
目前大多数机器人面临的核心挑战是高度专业化。每台机器人通常需要针对某一具体任务进行大量训练,在面对新任务时往往难以胜任。对此,谷歌DeepMind机器人部门主管Carolina Parada表示:“现有的机器人系统大多高度定制,部署过程复杂且耗时,常常花费数月时间才能上线一个只能做单一工作的机器人单元。”
为解决这一问题,DeepMind提出了基于生成式AI的新一代机器人架构。这类系统具备更强的泛化能力,能够在未知环境中自主适应,无需重新编程即可应对多样化任务。其实现方式依赖于两个协同工作的模型:一个负责规划决策,另一个专注于动作执行。
这两个新型模型分别为Gemini Robotics1.5与Gemini Robotics-ER1.5。其中,前者是一种视觉-语言-动作(VLA)模型,能够结合视觉感知和语言理解来生成具体的机器人操作指令;后者中的“ER”代表具身推理(Embodied Reasoning),是一个专精于推理的视觉-语言模型,接收环境图像和自然语言输入后,输出完成复杂任务所需的逻辑步骤。
美图云修
商业级AI影像处理工具
50
查看详情
尤为关键的是,Gemini Robotics-ER1.5是首个实现模拟推理的机器人AI系统,其推理机制类似于先进聊天机器人的思维链过程。虽然“思考”一词在生成式AI语境下可能存在争议,但DeepMind用此描述其高级决策能力。该模型在多项学术及内部基准测试中表现卓越,证明其能准确判断如何与物理世界交互。然而,它并不直接控制机器人运动,而是将生成的策略传递给执行模型。
以衣物分类任务为例:当机器人需要将混洗衣物按颜色分拣为白色和彩色两类时,Gemini Robotics-ER1.5会首先接收任务指令并分析场景图像。它还可调用外部工具如谷歌搜索获取相关信息,随后生成一系列自然语言形式的操作指南,指导机器人完成整个流程。
这种双模型设计的关键创新在于将“决策”与“执行”分离。具身推理模型专注于任务理解和路径规划,制定详尽的行动计划;而动作执行模型则精准地将这些抽象指令转化为机械臂的实际动作。通过这种分工协作模式,机器人不仅拥有了类人般的规划能力,同时也保持了工业级的操作精度与稳定性。
以上就是谷歌 DeepMind 推出双 AI 机器人系统的详细内容,更多请关注其它相关文章!
# 是一种
# 湛江seo网站关键词优化排名
# 驻马店排名优化seo
# 推广网站外包机构的好处
# 静海区电商网站推广介绍
# 封开营销网络推广哪个好
# 引流网站建设平台
# seo预处理六步
# 个人网站建设方案书备案
# 网络seo推广专员招聘
# 网站建设费用60万
# 专注于
# 谷歌
# 反垄断
# 是一个
# 的是
# 双模
# 欧盟
# 自然语言
# 这一
# 美图
# gemini
# ai
# 工具
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
中国联通发布图文AI大模型,可实现以文生图、视频剪辑
数字文明尼山对话 | 在东方圣城与AI潮流梦幻联动,看“智慧大脑”让数字山东更美好
花16000元买四款扫拖机器人!科沃斯追觅石头小米谁能笑到最后?
关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知
联想浏览器引入小乐 AI 助手,成功接入百度文心一言大模型,经过实测证实
IBM将模拟计算用于人工智能,重塑AI计算
人工智能在交通领域的革新:智能解决方案彻底改变交通方式
一文读懂自动驾驶的激光雷达与视觉融合感知
时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了
英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练
马斯克称未来机器人数量将多于人类,特斯拉愿共享自动驾驶技术
Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务
跟着AI大热的“光模块”到底是什么?
用人工智能技术,亚马逊为用户生成产品评论摘要,帮助他们轻松选购
腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果
基于信息论的校准技术,CML让多模态机器学习更可靠
高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案
【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资
从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级
联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络
开创全新虚拟现实体验的Pimax Crystal VR头显
探索AI前沿理念 2025全球人工智能技术大会在杭州开幕
第四范式「式说」大模型入选《2025年通用人工智能创新应用案例集》
机器人技能大比拼
一文看懂被英伟达看中的九号机器人移动底盘
在这里见未来!杭州未来科技城全球AI盛会邀您共探最前沿
两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏
500元一张的AI艺术二维码制作,详细教程来了!
特斯拉门店可能启动机器人卖车?也许不是你想的那样
全国体育人工智能大会举办,专家聚焦体育人工智能领域人才培养
丰田汽车研究院推出生成式人工智能汽车设计工具
讯飞星火大模型实现升级 助力通用人工智能人才培养
如何用Transformer BEV克服自动驾驶的极端情况?
日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病
V社悄悄封禁使用AI生成美术素材的游戏
1分钟做出苹果Vision Pro「官网」?上班8小时搞出480个网页,同事被卷疯了
能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高
如何成功实施人工智能?
周鸿祎:360智脑开放API接口 AI大模型将赋能百行千业
不到2S创作AI图像!Snap发布图像生成器SnapFusion
Bing 聊天机器人现支持在桌面端用语音提问
微软宣布为 Azure AI 添加男性声线,增强文本转语音功能
鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?
“聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办
AI时代,企业需要什么样的员工?
V社回应拒绝上架含 AI 生成内容的游戏:审核政策正在调整中
日本演员工会提出AI立法建议 要求建立“声音肖像权”
五个IntelliJ IDEA插件,高效编写代码
无人机巡检方案是什么,该如何选择适合的巡检方案
微软bing聊天推出AI购物工具 可进行比价并查看历史最低价
2025-09-26
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。