ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

aixiv专栏是本站发布学术、技术内容的栏目。过去数年，本站aixiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文第一作者为 Chuanyang Jin (金川杨)，本科毕业于纽约大学，即将前往 JHU 读博。本文为他本科期间在 MIT 访问时的工作，他是最年轻的杰出论文奖获得者之一。本文的指导老师为 Tianmin Shu (舒天民)，JHU 助理教授，Social Cognitive AI Lab 的主任。博士师从 UCLA 朱松纯教授，在 MIT 完成博后，致力于构建能够在现实世界中理解、推理和与人类互动的社会智能系统，从而推进以人为中心的 AI。本文另外两位指导老师 Joshua B. Tenenbaum、Antonio Torralba 为 MIT 著名教授，google scholar 引用量均在 10 万以上。

心智能力（Theory of Mind，ToM），即理解人们思维的能力，是开发具有类人社会智能的 AI 模型的重要基础。

近日，来自 JHU, NYU, MIT, Harvard 等机构的研究团队开创了第一个多模态的 ToM 测试基准，发现现有的多模态模型和 LLM 都表现存在系统性缺陷，同时他们提出了一种有效的新方法。在刚结束的 ACL 2025 会议中，这篇论文获得杰出论文奖。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

论文标题：MMToM-QA: Multimodal Theory of Mind Question Answering
论文地址: https://arxiv.org/abs/2401.08743
网站: https://chuanyangjin.com/mmtom-qa
代码: https://github.com/chuanyangjin/MMToM-QA

MMToM-QA

第一个多模态的 ToM benchmark

先前所有心智能力的测试基准都是单一模态的。MMToM-QA 是第一个多模态的心智能力测试基准。其中每个问题包含三部分：一个人的活动视频，环境和人类动作的文字描述与一个 ToM 问题。 ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

此前，大部分的心智能力测试基准都使用较简单的模版，文字或视频的长度很短。MMToM-QA 要求在更长的上下文下，更复杂多样的环境下系统性衡量模型的心智能力。既考察 belief（人们所认为的），也考察 goal（人们的目标）。

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

为了生成这些视频，该团队使用 VirtualHome-Social 模拟器来中生成一系列人物动作，并渲染合成视频。接下来，使用一个模型来跟踪记录在视频的每个时刻中 agent 所有可能的目标和想法，据此生成问题，并使用 GPT-4 生成改进问题的描述。

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

Meta、MIT、CMU、JHU 的众多团队已使用 MMToM-QA 来研发与人合作的大模型、机器人等。

大模型集体翻车

GPT-4V 存在致命缺陷

在 MMToM-QA 上的实验结果显示，当人们可以使用不同模态的信息时，他们理解他人的能力会有所提升。在这种多模态条件下，在每个问题上大多数参与者都达成了一致意见，这验证了基准设计的有效性。

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

相比之下，多模态模型和 LLM 的表现远不如人类。它们在所有问题类型上表现得像随机猜测一样。唯一的例外是 GPT-4V，当人们的信念与现实一致时它表现良好，但当涉及到人们持有错误信念或更新信念时，GPT-4V 会系统性犯错，并且在判断目标时表现较差。

以下是 GPT-4V 的一个失败案例。从视频和文本中可以看出，柜子里没有蛋糕，但女人却朝柜子走去，准备打开它。因此，正确答案应该是「女人认为柜子里有一个蛋糕。」然而，GPT-4V 错误地使用了真实世界的状态来推断女人的想法，这表明 GPT-4V 无法区分信念和真实世界状态。

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

BIP-ALM

小模型 + 逆向规划超过 GPT-4V

那么，我们该如何缩小 AI 模型和人类表现之间的差距？

该团队提出了一种新方法：BIP-ALM (Bayesian Inverse Planning Accelerated by Language Models)。该方法首先从视频和文字中提取出相同的符号表示，接着对这些表示进行对齐和融合，再使用逆向结合语言模型来推断各种心理状态的概率。

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

Remover

几秒钟去除图中不需要的元素

304 查看详情 Remover

以下是融合符号表示的方法。模型将从视频中提取特定时刻的场景关系图，识别人物与物体之间的关系，例如他们正在经过哪些物体或他们正朝哪些物品前进。由于摄像头视角的限制和遮挡，文本提供了这些可能无法直接从视频中观察的这些信息。

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

贝叶斯逆向规划（Bayesian inverse planning）可以根据观察到的 agent 的行为来推断其心理状态与潜在的信念和目标。先前的研究表明，贝叶斯逆向规划可以在简单情景下成功。然而，当状态空间变得很大时，计算每个可能信念和目标的概率变得非常复杂，导致计算瓶颈。下图中蓝色标出的部分就是一个计算瓶颈。为了加速这一过程，该团队使用了语言模型来估计每个时刻的心理状态的概率。

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

先前的大模型和各种方法无论是在文本、视频、还是多模态版本的 MMToM-QA 上都表现较差，而 BIP-ALM 则展现了较好的结果。论文作者认为 BIP-ALM 得益于：(1) 使用适用于不同模态信息的符号表示，(2) 模仿人类心智推理的逆向规划方法具有很强的鲁棒性和可解释性，(3) 语言模型具有很好的灵活性和可扩展性。

后续工作

走向多智能体的多模态心智模型

该团队提出了后续研究 MuMA-ToM: Multi-modal Multi-Agent Theory of Mind，将 MMToM-QA 的测试基准和方法拓展到了多个智能体的领域。

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

论文标题：MuMA-ToM: Multi-modal Multi-Agent Theory of Mind
论文地址: https://arxiv.org/abs/2408.12574
网站: https://scai.cs.jhu.edu/projects/MuMA-ToM
代码: https://github.com/SCAI-JHU/MuMA-ToM

MuMA-ToM 关注多智能体的互动，考察它们的信念、社会目标、和对他人目标的信念，发现大型多模态模型 GPT-4o、Gemini-1.5 Pro 等依然表现糟糕。针对这些发现，研究团队进一步提出了改进的方法 LIMP (Language model-based Inverse Multi-agent Planning)。相比之前的方法，LIMP 使用自然语言而不是符号表示来提高通用性，并且能够利用任何预训练的大型语言模型，而 BIP-ALM 则要求开放权重的大型语言模型。

ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力

以上就是ACL杰出论文奖｜GPT-4V暴露致命缺陷？JHU等发布首个多模态ToM 测试集，全面提升大模型心智能力的详细内容，更多请关注其它相关文章！

# 先前 # 子长县响应式网站建设 # 网站seo语音转换文字 # 昌邑优化网站设计 # 邓煌生seo教程 # 俄罗斯酒店推广营销方案 # 萌祖邦整合营销推广 # 白云网站海外推广价格 # 闵行网站建设论述题 # 四川网站搜索优化服务 # 百度网络推广整合营销 # 开源 # 图中 # 模态 # 互动 # 工程 # 第一个 # 提出了 # 全面提升 # 首个 # 多模 # type # follow # gemini # 模拟器 # git # acl 2024 # mmtom-qa # muma-tom

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-09-11

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。