ACL 2025论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了


如果 gpt-4 在模拟基于常识任务的状态变化时准确率都只有约 60%,那么我们还要考虑将大语言模型作为世界模拟器来使用吗?


最近两天,一篇入选 ACL 2025 的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体 X 上引发了热议,就连图灵奖得主 Yann LeCun 也参与了进来。

这篇论文探讨的问题是:当前语言模型本身是否可以充当世界模拟器,并正确预测动作如何改变不同的世界状态,从而避免大量手动编码的需要呢

针对这一问题,来自亚利桑那大学、纽约大学、约翰斯・霍普金斯大学、微软研究院、 艾伦人工智能研究所等机构的研究者在「基于文本的模拟器」上下文中给出了他们的答案。

他们认为:语言模型并不能作为世界模拟器使用。比如,GPT-4 在模拟基于常识任务(如烧开水)的状态变化时,准确率仅为约 60%。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了                                     x 地址:https://x.com/peterjansen_ai/status/1801687501557665841

Yann LeCun 对这篇论文的发现表示了认同,并认为「没有世界模型,也就没有规划。」

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了                                  X 地址:https://x.com/ylecun/status/1801978192950927511

不过也有人表达了不同的观点:当前 LLM(没有进行针对性任务训练)的准确率可以达到 60%,这不就说明了它们至少是「一定程度上的世界模型」吗?并且会随着 LLM 的迭代而持续改进。LeCun 又表示,世界模型不会是 LLM。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

回到论文中,研究者构建并使用了一个全新的基准,他们称为「ByteSized32-State-Prediction」,包含了一个文本游戏状态转换和随附游戏任务组成的数据集。他们首次使用该基准来直接量化大语言模型(LLM)作为基于文本的世界模拟器的性能。

通过在这个数据集上测试 GPT-4,研究者发现:尽管它的性能令人印象深刻,但如果没有进一步的创新,它仍然是一个不可靠的世界模拟器。

因此,研究者认为,他们的工作既为当前 LLM 的能力和弱点提供了新的见解,也为跟踪新模型出现时的未来进展提供了一个新的基准。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

论文地址:https://arxiv.org/pdf/2406.06485

方法概览

研究者探究了 LLM 在基于文本的虚拟环境中充当世界模拟器的能力,在这种环境中,智能体接收观察结果并以自然语言提出操作以完成某些目标。

每个文本环境都可以正式表示为具有 7 元组 (S,A,T,O,R,C,D) 的目标条件部分可观察马尔可夫决策过程 (POMDP),S 表示状态空间,A 表示动作空间,T : S×A→S 表示转换函数,O 表示观察函数,R : S×A→R 表示奖励函数,C 表示描述目标和动作语义的自然语言「上下文消息」,D : S×A→{0,1} 表示二元完成指示函数。

大模型模拟器(LLM-Sim)任务

研究者提出了一个预测任务,称它为 LLM as-a-Simulator (LLM-Sim),用来定量评估语言模型作为可靠模拟器的能力

LLM-Sim 任务是将一个函数 F : C×S×A→S×R×{0,1} 作为世界模拟器来实现。在实践中,完整状态转换模拟器 F 应该考虑两种类型的状态转换:动作驱动转换和环境驱动转换

图 1 为使用 LLM 作为文本游戏模拟器的示例:打开水槽后,水槽中的杯子被水填满的过程。动作驱动转换是采取打开水槽的动作后,水槽被打开(isOn=true);而环境驱动转换是在水槽打开时,水填满水槽中的杯子。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

为了更好地理解 LLM 对每个转换进行建模的能力,研究者进一步将模拟器函数 F 分解为三个步骤:

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

码上飞 码上飞

码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。

码上飞 430 查看详情 码上飞
  • 动作驱动转换模拟器:给定 c、s_t 和 a_t, F_act:C×S×A→S 预测 s^act_t+1,其中 s^act_t+1 表示动作引起的直接状态变化。
  • 环境驱动转换模拟器:给定 c 和 s^act_t+1,F_env:C×S→S 预测 s_t+1,其中 s_t+1 是任何环境驱动转换后产生的状态。
  • 游戏进度模拟器:给定 c、s_t+1 和 a_t, F_R:C×S×A→R×{0,1} 预测奖励 r_t+1 和游戏完成状态 d_t+1。

此外,研究者考虑了 LLM-Sim 任务的两种变体

  • 完整状态预测:LLM 输出完整状态。
  • 状态差异预测:LLM 仅输出输入和输出状态之间的差异。

数据和评估

为了完成这一任务,研究者引入了一个新的文本游戏状态转换数据集。该数据集为 「BYTESIZED32-State-Prediction (BYTESIZED32-SP) 」,它包含 76,369 个转换,表示为 (c,s_t,rt,d_t,a_t,s^act_t+1,s_t+1,r_t+1,d_t+1) 元组。这些转换是从 31 个不同的文本游戏中收集的。

下表 1 总结了额外语料库统计数据。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

LLM-Sim 上的性能由模型相对于测试样本数据集上的真实标签的预测准确性来决定。根据实验条件,LLM 必须模拟对象属性(模拟 F_act、F_env 或 F)和 / 或游戏进度(模拟 F_R 或 F),定义如下:

  • 对象属性:游戏中所有对象、每个对象的属性(如温度、大小),以及与其他对象的关系(如在另一个对象内或之上)。
  • 游戏进度:智能体相对于总体目标的状态,包括当前累积的奖励、游戏是否已终止以及总体目标是否已实现。

研究者注意到,在每种情况下,LLM 都提供了 ground truth 先前状态(当函数为 F_env 时,先前状态为 s^act_t+1 )以及整体任务上下文。也就是说,LLM 始终执行单步预测。

实验结果

上图 1 演示了研究者使用上下文学习评估 LLM-Sim 任务中模型的性能。他们评估了 GPT-4 在完整状态和状态差异预测机制中的准确性。该模型接收先前状态(编码为 JSON 对象)、先前操作和上下文消息,并生成后续状态(作为完整的 JSON 对象或差异)。

下表 2 展示了 GPT-4 模拟完整状态转换的准确性,以及单独模拟动作驱动转换和环境驱动转换的准确性。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

研究者得出了以下几项重要发现:

预测动作驱动转换比预测环境驱动转换更容易。在最好的情况下,GPT-4 能够正确模拟 77.1% 的动态动作驱动转换。相比之下,GPT-4 最多只能正确模拟 49.7% 的动态环境驱动转换。

预测静态转换比动态转换更容易。不出所料,在大多数情况下,对静态转换进行建模比对动态转换进行建模要容易得多。

对于动态状态,预测完整游戏状态更容易;而对于静态状态,预测状态差异更容易。预测动态状态的状态差异可以显著提高模拟静态转换的性能(>10%),而模拟动态转换时的性能会降低。

游戏规则很重要,LLM 能够生成足够好的游戏规则。当上下文消息中未提供游戏规则时,GPT-4 在所有三个模拟任务上的性能在大多数情况下都会下降。

GPT-4 在大多数情况下都能预测游戏进度。下表 3 展示了 GPT-4 预测游戏进度的结果。在上下文中加入了游戏规则信息后,GPT-4 可以在 92.1% 的测试用例中正确预测游戏进度。这些规则的存在在上下文中至关重要:如果没有它们,GPT-4 的预测准确率会下降到 61.5%。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

人类在 LLM-Sim 任务中的表现优于 GPT-4。研究者对 LLM-Sim 任务进行了初步的人类研究。结果见下表 4。

结果发现,人类的整体准确率为 80%,而采样的 LLM 的准确率为 50%,并且不同注释者之间的差异很小。这表明,虽然任务对于人类来说总体上是直观且相对容易的,但对于 LLM 来说仍有很大的改进空间。 

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

GPT-4 在需要算术、常识或科学知识时更容易出错。下图 2 展示了在整体状态转换、动作驱动转换和环境驱动转换中,预测结果的正确比例、将属性设置为不正确值的比例或未能更改属性值的比例。

我们可以观察到,GPT-4 能够很好地处理大多数简单的布尔值属性。错误集中出现在需要算术(如温度、timeAboveMaxTemp)、常识(如 current_aperture、current_focus)或科学知识(如 on)的非平凡属性上。

ACL 2024论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了

更多技术细节和实验结果请参阅原论文。

以上就是ACL 2025论文盖棺定论:大语言模型≠世界模拟器,Yann LeCun:太对了的详细内容,更多请关注其它相关文章!


# 如果没有  # seo全称指的是什么  # 西城网站建设外包  # 通化网站建设加盟  # 奉新网站推广  # 杭州网站优化哪家强些啊  # 上海网站优化运营  # 襄阳网站建设优化方案  # 网站建设专业宣传片  # 石材行业网站优化宣传  # 云南uc网站推广方法  # 量产  # 工程  # 出了  # 这一  # 他们的  # 先前  # 下表  # 自然语言  # 更容易  # 对了  # type  # 模拟器  # acl 2024 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 金山办公宣布与英伟达团队合作,加速WPS AI服务  鉴智机器人发布基于地平线征程5的标准视觉感知产品  能走、能飞、能游泳,科学家打造全能 M4 机器人  500元一张的AI艺术二维码制作,详细教程来了!  人工智能即将进入Windows:企业准备好安全策略设置了吗?  以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%  插画师对AI绘画软件的态度是怎样的?  微软Xbox称VR和AR还需要时间 先玩大的  清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳  AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!  独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机  小米9号员工李明宣布创业:打造首款安卓桌面机器人  对Hugging Face开源模型精准投毒!LLM切脑后变身PoisonGPT,用虚假事实洗脑60亿人  马斯克嘲讽人工智能:机器学习本质就是统计学  轻量级的深度学习框架Tinygrad  华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来  参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器  第二届光合组织AI解决方案大赛赛果揭晓  AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会  微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  Win11 的画图应用将包含 Windows Copilot 的 AI 工具整合  美图公司吴欣鸿:AI技术重构影像产业  【趋势周报】全球人工智能产业发展趋势:OpenAI向美国专利局提交“GPT-5”商标申请  无人机在电力巡检中的应用:全面解析高效巡检流程  机器人技能大比拼  “世界人工智能之都”的新烦恼:AI热潮无法拉动大量就业  社区里,孩子们体验“机器人竞技”  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  OpenAI CEO 阿尔特曼到访日本,对全球 AI 协调合作表示乐观  AI遇上大运丨热身拉伸、娱乐K歌……AI智能健身镜将亮相成都大运会  在这里见未来!杭州未来科技城全球AI盛会邀您共探最前沿  XREAL Beam 投屏盒子正式发布:支持“可悬停 AR 空间屏”  你大脑中的画面,现在可以高清还原了  特斯拉人形机器人将亮相 预计售价不超过15万元  中国AI公有云市场2025年逆势蓬勃增长,增速高达80.6%  全场景智能车:智能无处不在|芯驰亮相世界人工智能大会  两架海燕号无人机交付中国气象局 助力建设国家级机动气象观测业务  25个AI智能体源码现已公开,灵感来自斯坦福的「虚拟小镇」和《西部世界》  本届人工智能大会上的这个“镇馆之宝”,来自长宁企业西井科技!  羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品  OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%  干货满满,2025昆山元宇宙国际装备展等你来打卡!  央视报道!星纪魅族集团车载人机交互技术成世界移动通信大会焦点  水路两栖艇、消防灭火机器人……这个展览“黑科技”抢眼  农业产业升级:AI驱动的“崃·见田”开启农田未来展望  朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪  日媒关注中国推进鸟类识别 AI 普及,除监测保护外还可预防传染性疾病  曝光HarmonyOS 4的重要新能力:全面升级AI大模型,小艺实现全面进化  当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜? 

 2024-06-17

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.