ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力


ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

aixiv专栏是本站发布学术、技术内容的栏目。过去数年,本站aixiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


本文第一作者为 Chuanyang Jin (金川杨),本科毕业于纽约大学,即将前往 JHU 读博。本文为他本科期间在 MIT 访问时的工作,他是最年轻的杰出论文奖获得者之一。本文的指导老师为 Tianmin Shu (舒天民),JHU 助理教授,Social Cognitive AI Lab 的主任。博士师从 UCLA 朱松纯教授,在 MIT 完成博后,致力于构建能够在现实世界中理解、推理和与人类互动的社会智能系统,从而推进以人为中心的 AI。本文另外两位指导老师 Joshua B. Tenenbaum、Antonio Torralba 为 MIT 著名教授,google scholar 引用量均在 10 万以上。

心智能力(Theory of Mind,ToM),即理解人们思维的能力,是开发具有类人社会智能的 AI 模型的重要基础。

近日,来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准,发现现有的多模态模型和 LLM 都表现存在系统性缺陷,同时他们提出了一种有效的新方法。在刚结束的 ACL 2025 会议中,这篇论文获得杰出论文奖。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

  • 论文标题:MMToM-QA: Multimodal Theory of Mind Question Answering
  • 论文地址: https://arxiv.org/abs/2401.08743
  • 网站: https://chuanyangjin.com/mmtom-qa
  • 代码: https://github.com/chuanyangjin/MMToM-QA

MMToM-QA
第一个多模态的 ToM benchmark

先前所有心智能力的测试基准都是单一模态的。MMToM-QA 是第一个多模态的心智能力测试基准。其中每个问题包含三部分:一个人的活动视频,环境和人类动作的文字描述与一个 ToM 问题。ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力
此前,大部分的心智能力测试基准都使用较简单的模版,文字或视频的长度很短。MMToM-QA 要求在更长的上下文下,更复杂多样的环境下系统性衡量模型的心智能力。既考察 belief(人们所认为的),也考察 goal(人们的目标)。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

为了生成这些视频,该团队使用 VirtualHome-Social 模拟器来中生成一系列人物动作,并渲染合成视频。接下来,使用一个模型来跟踪记录在视频的每个时刻中 agent 所有可能的目标和想法,据此生成问题,并使用 GPT-4 生成改进问题的描述。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

Meta、MIT、CMU、JHU 的众多团队已使用 MMToM-QA 来研发与人合作的大模型、机器人等。

大模型集体翻车
GPT-4V 存在致命缺陷

在 MMToM-QA 上的实验结果显示,当人们可以使用不同模态的信息时,他们理解他人的能力会有所提升。在这种多模态条件下,在每个问题上大多数参与者都达成了一致意见,这验证了基准设计的有效性。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

相比之下,多模态模型和 LLM 的表现远不如人类。它们在所有问题类型上表现得像随机猜测一样。唯一的例外是 GPT-4V,当人们的信念与现实一致时它表现良好,但当涉及到人们持有错误信念或更新信念时,GPT-4V 会系统性犯错,并且在判断目标时表现较差。

以下是 GPT-4V 的一个失败案例。从视频和文本中可以看出,柜子里没有蛋糕,但女人却朝柜子走去,准备打开它。因此,正确答案应该是 「女人认为柜子里有一个蛋糕。」然而,GPT-4V 错误地使用了真实世界的状态来推断女人的想法,这表明 GPT-4V 无法区分信念和真实世界状态。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

BIP-ALM
小模型 + 逆向规划超过 GPT-4V

那么,我们该如何缩小 AI 模型和人类表现之间的差距?

该团队提出了一种新方法:BIP-ALM (Bayesian Inverse Planning Accelerated by Language Models)。该方法首先从视频和文字中提取出相同的符号表示,接着对这些表示进行对齐和融合,再使用逆向结合语言模型来推断各种心理状态的概率。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover
以下是融合符号表示的方法。模型将从视频中提取特定时刻的场景关系图,识别人物与物体之间的关系,例如他们正在经过哪些物体或他们正朝哪些物品前进。由于摄像头视角的限制和遮挡,文本提供了这些可能无法直接从视频中观察的这些信息。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

贝叶斯逆向规划(Bayesian inverse planning)可以根据观察到的 agent 的行为来推断其心理状态与潜在的信念和目标。先前的研究表明,贝叶斯逆向规划可以在简单情景下成功。然而,当状态空间变得很大时,计算每个可能信念和目标的概率变得非常复杂,导致计算瓶颈。下图中蓝色标出的部分就是一个计算瓶颈。为了加速这一过程,该团队使用了语言模型来估计每个时刻的心理状态的概率。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

先前的大模型和各种方法无论是在文本、视频、还是多模态版本的 MMToM-QA 上都表现较差,而 BIP-ALM 则展现了较好的结果。论文作者认为 BIP-ALM 得益于:(1) 使用适用于不同模态信息的符号表示,(2) 模仿人类心智推理的逆向规划方法具有很强的鲁棒性和可解释性,(3) 语言模型具有很好的灵活性和可扩展性

后续工作
走向多智能体的多模态心智模型

该团队提出了后续研究 MuMA-ToM: Multi-modal Multi-Agent Theory of Mind,将 MMToM-QA 的测试基准和方法拓展到了多个智能体的领域。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

  • 论文标题:MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
  • 论文地址: https://arxiv.org/abs/2408.12574
  • 网站: https://scai.cs.jhu.edu/projects/MuMA-ToM
  • 代码: https://github.com/SCAI-JHU/MuMA-ToM

MuMA-ToM 关注多智能体的互动,考察它们的信念、社会目标、和对他人目标的信念,发现大型多模态模型 GPT-4o、Gemini-1.5 Pro 等依然表现糟糕。针对这些发现,研究团队进一步提出了改进的方法 LIMP (Language model-based Inverse Multi-agent Planning)。相比之前的方法,LIMP 使用自然语言而不是符号表示来提高通用性,并且能够利用任何预训练的大型语言模型,而 BIP-ALM 则要求开放权重的大型语言模型。

ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力

以上就是ACL杰出论文奖|GPT-4V暴露致命缺陷?JHU等发布首个多模态ToM 测试集,全面提升大模型心智能力的详细内容,更多请关注其它相关文章!


# 先前  # 子长县响应式网站建设  # 网站seo语音转换文字  # 昌邑优化网站设计  # 邓煌生seo教程  # 俄罗斯酒店推广营销方案  # 萌祖邦整合营销推广  # 白云网站海外推广价格  # 闵行网站建设论述题  # 四川网站搜索优化服务  # 百度网络推广整合营销  # 开源  # 图中  # 模态  # 互动  # 工程  # 第一个  # 提出了  # 全面提升  # 首个  # 多模  # type  # follow  # gemini  # 模拟器  # git  # acl 2024  # mmtom-qa  # muma-tom 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉  管提需求,大模型解决问题:图表处理神器SheetCopilot上线  优傲机器人的人机协作技术 助力中小企发展  五个IntelliJ IDEA插件,高效编写代码  OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”  AI新视野,增长新势能,伙伴云受邀出席笔记侠创业讲真话AI峰会  Xreal AR 眼镜用投屏盒子 Beam 发布:分体式设计,到手 699 元  旷视入选北京市通用人工智能产业创新伙伴计划  上天下海登极,青岛与昇腾AI握手一起探索星辰大海  微软向美国政府提供GPT的大模型,安全性如何保证?  为AI而服务设计:构建以人为本的AI创新方法  Meta将VR头显最低年龄限制从13岁降至10岁  智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典  套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化  零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作  谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程  OpenAI更新GPT-4等模型,新增API函数调用,价格最高降75%  用AI升级会议体验!思必驰多款会议产品亮相全球智博会!  大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务  学而思网校推出首个基于自研大模型的《人工智能第一课》  SnapFusion技术大幅提升AI图像生成速度  电力人工智能数据集目录首次发布  九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布  OPPO三方联合发布AI可持续发展白皮书,坚持发展健康AI生态  MiracleVision视觉大模型上线时间  轻量级的深度学习框架Tinygrad  华为小艺AI助手将实现强大的大模型能力  云深处科技绝影 Lite3 与 X20 四足机器人亮相  全球首款AI裸眼3D平板 国产的售价破万  华为云天筹AI求解器荣获世界人工智能大会最高奖  人工智能时代 数字文明对话向“尼”走来  Unity发布Sentis和Muse AI工具,助力创作游戏和3D内容  百度创始人、董事长兼首席执行官李彦宏:AI原生应用比大模型数量更重要  人工智能即将进入Windows:企业准备好安全策略设置了吗?  梦想实现!硬核科幻大片VR智能头盔即将问世  280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了  视觉中国推出AI灵感绘图功能,付费后可在“合法合规前提下使用”  研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化  人工智能进入绿植界,智能庭院市场初具规模  V社悄悄封禁使用AI生成美术素材的游戏  百川智能发布Baichuan-13B AI模型,号称“130亿参数开源可商用”  微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测  AI成政客博弈工具,美国大选真假难辨,律师们的生意来了  软通动力天枢元宇宙研究院签约落户江宁高新区  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  马斯克称人类是半机器人,记忆外包给了电脑  专家解读国家网信办深度合成服务算法备案信息公告:不等于百度、阿里、腾讯等生成式AI产品获批  人工智能创作的“婴儿版超级英雄”,你觉得哪个最可爱  如何用AI开创智慧能源新时代?固德威正让能源“通人性”!  以计算机视觉技术为基础的库存管理如何改革零售行业 

 2024-09-11

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.