一场「狼人杀」,考倒了一堆大模型


人工智能越来越像人,但“像人”到底意味着什么?

除了会解题、写文,它是否也能理解人类那种充满个性的推理方式?比如在一场狼人杀游戏中,有人逻辑缜密、有人直觉敏锐、有人擅长伪装。那么 AI 能跟上这种风格差异吗?

最近,南开大学、上海 AI lab 等国内外机构就针对这个问题做了一个有趣的实验,把大模型拉进了“狼人杀的考场”。他们设计了一个名为 InMind 的全新评测框架,并将其落地到社交推理游戏 Avalon 上,对 11 个前沿大模型展开测试。

结果令人警醒:多数模型依然停留在表层模仿,只有少数推理增强模型展现出初步的“风格敏感性”。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

一场「狼人杀」,考倒了一堆大模型

论文链接:https://arxiv.org/pdf/2508.16072

模型不会「因人而异」

在构建“推理风格画像”的环节,模型之间的差异几乎是一眼可见。

通用型模型的输出往往停留在表层,比如 GLM4-9B 经常给出一些模糊的性格标签:“逻辑性强”“关注人际互动”,这些描述看似准确,却和具体的局势关联不大,更像是在描绘一个笼统的人设,而不是在捕捉某个玩家在游戏中的真实思维方式。Qwen2.5 系列的表现也类似,尤其是中等规模版本(如 Qwen2.5-7B),往往倾向于生成通用化的心理特征描述,缺乏和具体行动的呼应。

相比之下,DeepSeek-R1 的画像则显得更有“血肉”。它能结合上下文细节,将玩家刻画为“分析型刺客”:表面上刻意掩饰自己的逻辑优势,实则通过提问不断套取信息,甚至会主动代入对立角色的视角来推演局势走向。这样的画像不止于表面标签,而是深入到了推理风格的动机层面。

一场「狼人杀」,考倒了一堆大模型

后续的玩家识别环节,模型要做的事情听上去并不复杂:给定一份“推理画像”,在匿名化的对局中找到最符合这一风格的玩家。

然而结果却并不乐观。大多数模型几乎和“蒙”差不多,Top-1 准确率普遍不到 20%,而 Top-3 也只是徘徊在五成左右。GPT-4o 的表现就是一个典型例子:Top-1 只有 0.160,虽然在 Top-3 上能爬到 0.672,但这更多意味着它在做模糊匹配,而非真正理解风格。Qwen2.5-72B 的成绩略好一些,Top-1 达到 0.198,但依然没有突破“随机猜测 + 关键词匹配”的层面。

一场「狼人杀」,考倒了一堆大模型

在一众表现平平的模型中,DeepSeek-R1 显得格外突出。它的 Top-1 准确率达到 0.240,是所有模型里的最高值,说明它并不是靠简单的词汇匹配来凑答案,而是真正在尝试理解并对比不同的推理风格。更有意思的是,在 BERT Match 指标上,它的得分只有 0.144,远低于大多数模型。多数模型的表现都集中在对角线附近,意味着只是停留在“表层模仿”,而 DeepSeek-R1 却明显跳脱出这一带,呈现出了一种更接近“战略对齐”的推理倾向。

一场「狼人杀」,考倒了一堆大模型

在“反思对齐”任务中,研究人员要求模型根据赛后的反思总结来推断玩家身份。最后的结果显示,当有完整的策略轨迹时,模型的表现会显著提升,因为轨迹能为它们提供清晰的锚点,把反思对应到具体的回合。但一旦失去这些轨迹,准确率就会大幅下滑,大多数模型都陷入混乱,立刻失去方向。

Qwen2.5 系列在这一任务中表现出强烈的依赖性:有轨迹时还能维持中等水平,但一旦撤掉,准确率骤降,甚至比 GPT-4o 的下滑更明显。

相比之下,人类专家即便没有轨迹,也能维持较高的判断力。这也充分说明,大模型在处理抽象推理总结时缺乏内在的“锚定机制”,过度依赖外部线索,而不能像人一样把抽象总结自然地落到具体事件上。

一场「狼人杀」,考倒了一堆大模型

如果说“反思对齐”考察的是赛后总结的理解,那么“轨迹归因”就像是把模型直接丢进棋局中,让它一回合一回合地补全缺失的推理。换句话说,就是要求模型逐步填上被遮蔽的信息。

最终的结果却有点出人意料,大多数模型非但没能借助前一轮信息,反而在上下文越多时表现越差,说明它们并不会真正的动态推理,而是把每个回合都当作孤立问题。但 DeepSeek-R1 是为数不多的例外,准确率从 0.503 提升到 0.517,哪怕进步有限,也证明它确实在利用历史信息。反观 GPT-4o,成绩几乎停滞,仅从 0.440 微升到 0.448,几乎没有适应性可言。

AdMaker AI AdMaker AI

从0到爆款高转化AI广告生成器

AdMaker AI 65 查看详情 AdMaker AI

一场「狼人杀」,考倒了一堆大模型

最后一个任务是角色推断,研究人员要求模型逐步推理出每个玩家的隐藏身份。他们设置了四种模式,难度从宽松到严格逐级提升。

最终的结果显示,在最宽松的条件下(第一人称叙述、提供策略轨迹并已知部分身份),模型的准确率最高,但一旦去掉轨迹或身份信息,表现就会迅速下滑。尤其是在需要逐一推断身份的严格模式中,大多数模型仍然力不从心。

一场「狼人杀」,考倒了一堆大模型

不过,当任务仅要求区分“好人”和“坏人”时,它们展现出了一定潜力。整体来看,大模型在应对复杂的社交推理时,依然严重依赖外部支撑,缺乏人类那种灵活的情境建模能力。

一场「狼人杀」,考倒了一堆大模型

从游戏到框架

要理解这些结果,还需要回到实验的整体设计。

研究团队选用 Avalon 作为载体,是因为这类社交推理游戏天生会放大个体差异。同样的局势下,有人会逻辑缜密地逐条分析,有人则完全依赖直觉,还有人喜欢通过伪装和试探来误导他人。这种风格差异,正好是检验大模型能否“因人而异”的最好场景。

为了把这种差异转化成可量化的测试,团队搭建了 InMind 框架。他们设计了两种模式:在“观察者模式”下,模型需要旁观玩家的对话,总结每个人的推理习惯;在“参与者模式”下,它必须像真实玩家一样,把学到的习惯运用到实际局势中。除此之外,每局对局都额外生成了策略轨迹(逐回合推理链)和反思总结(赛后复盘),让实验既能考察静态判断,也能检验动态推理。PHP中文网

一场「狼人杀」,考倒了一堆大模型

整个 InMind-Avalon 数据集共包含 30 局完整对局,884 个回合、160 条轨迹和 30 篇反思总结,覆盖 Merlin、Percival、忠臣、Morgana、刺客等角色,并保留了中文实战中的口语化术语。这样的数据不仅复杂,而且贴近真实互动。

一场「狼人杀」,考倒了一堆大模型

在模型选择上,研究团队既考虑了主流的通用型模型,如 Qwen2.5 系列、Yi1.5、GLM4、InternLM、GPT-4o,也纳入了专门强化推理能力的增强型模型,包括 DeepSeek-R1、QwQ、O3-mini。此外,还用 BERT 作为基线参照。所有模型一律在零样本条件下测试,不额外训练,也不给提示工程上的特殊照顾,以保证结果的可比性。

迈向「认知一致」的人机交互

InMind 的实验结果揭示了一个事实:大多数大模型还不能真正做到“因人而异”的推理。

在静态任务中,它们往往依赖表层词汇,无法捕捉个体风格;在动态任务中,它们缺乏长时序推理的连贯性。少数模型(如 DeepSeek-R1)展现出了“风格敏感性”,能在一定程度上维持个体一致性,但整体仍远不及人类。

研究团队指出,InMind 的意义并不只是新增了一个 benchmark,而是打开了一条新路径:未来的人机交互,不能只看“对不对”,更要看“像不像”。只有当模型能够理解人与人之间的差异,并在推理过程中保持一致性,它们才可能成为可信赖的合作者。

换句话说,InMind 把 AI 拉进了一个更接近人类的考场。这场考试的分数目前并不好看,但它提醒我们,真正有用的 AI,必须学会和人类的多样性共舞。PHP中文网(公众号:PHP中文网)

一场「狼人杀」,考倒了一堆大模型

以上就是一场「狼人杀」,考倒了一堆大模型的详细内容,更多请关注php中文网其它相关文章!


# 因人而异  # 陕西短视频seo实操  # 关键词网站推广开户价格  # discuz论坛seo设置  # 临汾seo优化趋势  # seo canical标签  # 核心词seo服务  # 减少营销推广的  # 金乡互联网营销推广  # 福州seo外包蕲行者seo06  # 湖北关键词排名检测  # 在一  # 的是  # php  # 也能  # 出了  # 是在  # 中文网  # 狼人  # 倒了  # 关键词  # qwen  # deepseek  # ai  # 人工智能 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 北京市元宇宙产业创新中心筹建工作正式启动  特斯拉门店可能启动机器人卖车?也许不是你想的那样  南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台  探索人工智能和物联网的动态融合  零数科技CTO兰春嘉:区块链与人工智能的结合点在数据  刊·见 | 捕捉人工智能领域最新动态?收藏Applied Artificial Intelligence  首个算网生态体!中国移动元宇宙产业联盟正式成立  美图公司:Wink国内首发AI画面拓展功能  25个AI智能体源码现已公开,灵感来自斯坦福的「虚拟小镇」和《西部世界》  1000万张照片训练AI模型 科学家找到水下定位新方法  视觉中国推出AI灵感绘图功能  华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会  云鲸发布全新的扫拖机器人J4系列  人工智能产业协同创新中心:全产业链资源在这里汇聚  对话无界AI创始人长铗:AI的创业机会在应用层丨创新者Innovator  “上海市民营企业人工智能赋能创新中心”揭牌成立  华为将于 7 月发布面向 AI 大模型的新款存储产品  XREAL Beam 投屏盒子正式发布:支持“可悬停 AR 空间屏”  英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练  视觉中国推出付费AI绘图功能:无版权可用  DreamAvatar数字人使用教程  字节团队提出猞猁Lynx模型:多模态LLMs理解认知生成类榜单SoTA  昌吉市利用无人机实现全天候河道动态巡检  常见的五个人工智能误解  机构:边缘AI或是当前预期差最大的AI方向  标小智LOGO推出AI公司起名生成器“Name.GPT”  技术如何使人变得懒惰?  组建团队,字节跳动要造机器人?  OpenAI更新GPT-4等模型,新增API函数调用,价格最高降75%  机器人加速!稀土永磁也被带火,持续性如何?  微软商店 AI 摘要功能开启预览,帮助用户迅速了解应用评价  九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布  华为云天筹AI求解器荣获世界人工智能大会最高奖  智能化解决方案:保障数据安全阻击泄露和丢失  美图设计室2.0新增哪些功能  利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队  人工智能如何帮助制造业?  热点资讯:家乐福推出聊天机器人;米哈游2025年营收273.4亿元…  世界周刊丨AI“棱镜”?  探索AI前沿理念 2025全球人工智能技术大会在杭州开幕  编程已死,AI 当立?教授公开“唱反调”:AI 还帮不了程序员  自动驾驶汽车避障、路径规划和控制技术详解  人工智能如何用于家庭安全  改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键  Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收  一家 380 亿美元的数据巨头,要掀起企业「AI 化」革命  华为即将推出HarmonyOS 4,再度领先行业的AI技术  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  看了天美对AI的布局,我感觉它想得是真明白  软通动力天枢元宇宙研究院签约落户江宁高新区 

 2025-08-30

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.