首页 > 营销学院 > IT资讯

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

近日，一篇关于自动化 ai 研究的论文引爆了社交网络，原因是该论文得出了一个让很多人都倍感惊讶的结论：llm 生成的想法比专家级人类研究者给出的想法更加新颖！

我们都知道通过调节 LLM 的温度值确实可以调整它们的随机性和创造性，但在科学研究方面比人类还懂创新？这还是超乎了很多人的想象 —— 至少很多人没想到这会来得这么快。难道 AI 科学家真的要来了？

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

那么，这项来自斯坦福大学的研究究竟得出了什么样的结论呢？

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

论文地址：https://arxiv.org/abs/2409.04109
调查链接：https://tinyurl.com/execution-study
项目地址：https://github.com/NoviScl/AI-Researcher

LLM 能生成新颖的研究思路吗？

为了准确地对比 LLM 与人类在科研思路创新方面的能力，斯坦福大学的这个研究团队招募了 104 位 NLP 研究者，让其中 49 位写下创新研究想法，然后再让 79 位专家对 LLM 和人类给出的思路进行盲测。请注意，其中有 24 位人类专家既写了想法，也参与了盲测，当然他们并不评估自己写的内容。

模型（或者按该团队的说法：思路生成智能体）方面，该团队使用了 claude-3-5-sonnet-20250620 作为骨干模型。具体来说，给定一个研究主题（比如：可以提升 LLM 事实性并降低其幻觉的提示方法），让 LLM 生成一系列对 Semantic Scholar API 的函数调用。这个论文检索动作空间包括 {KeywordQuery (keywords), PaperQuery (paperId), GetReferences (paperId)} 。每个动作生成都基于之前的动作和已执行的结果。

该研究使用的研究主题有 7 个：偏见、编程、安全性、多语言、事实性、数学和不确定性。下表是各个主题的想法数量：

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

研究过程如下图所示：

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

这里我们不细说其详细的设置和评估过程，详见原论文。总结起来就是比较人类专家与 AI 智能体生成的科研思路的新颖程度。我们直接来看结论。

根据该团队思路评分（Idea Ranking）规则，他们对人类和 AI 提出科研思路进行了打分，见图 2 和表 7：

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

其中 Human Ideas 是指招募的专家研究者提出的思路，而 AI Ideas 则是 LLM 智能体给出的排名第一的思路。AI Ideas + Human Rerank 是指由 AI 生成思路但由本研究一作 Chenglei Si 手动从排名靠前的思路中选择他认为最好的一个。

可以看到，在新颖度方面，不管是 AI Ideas 还是 AI+Rerank，都显著优于 Human Ideas（p

当然，我们也能看出，这项调查研究有一些明显的局限，比如其调查范围较小，样本量太少了，评价很主观。另外作者也指出人类研究者可能会「藏私」，可能并不会分享自己的最佳想法。

不管怎样，这项研究证明了一点：让 AI 参与到科学研究中多半是有利的。尤其是当你灵感枯竭、思维阻塞时，问一问 LLM 或许就能有意想不到的收获。

生成创新想法的 AI 工具，正在不断涌现

实际上，已经有研究团队在打造专用于此类任务的 AI 工具了。比如近日一位专注于开发 LLM 应用的研究者 Shubham Saboo 就在社交网络分享了使用 Cursor 构建一个多智能体 AI 研究者的过程。他表示整个过程用时不到 5 分钟！参见如下视频：召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

也有人分享了自己的一项相关研究，表示可以使用 LLM 和因果图谱自动生成心理学假设，并生成比 GPT-4 和博士生表现都好：

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

近日，印度科学学院（Indian Institute of Science，IISc）的研究者发现，AI 在设计创意方面也比人类更有想法。具体来说，AI 可通过一种新的人工智能会话式「主动构思」（Active Ideation）界面来生成新创意。作为一种创意构思生成工具，它可帮助新手设计师缓解一部分的初始延迟和构思瓶颈。

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

Remover

几秒钟去除图中不需要的元素

304 查看详情 Remover

论文标题：A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System
论文地址：https://arxiv.org/pdf/2409.05747

具体来说，这是一种动态、交互、上下文响应式方法，通过大型语言模型（LLM）主动参与，为不同的设计问题生成多个潜在创意陈述。论文称之为「主动构思场景」，它有助于促进基于对话的持续互动、对上下文敏感的对话以及多产的构思生成。

在当前的很多研究设计中，从书面信息到基于关键词的在线资源检索的转变至关重要。这强调了文本在转变思维模式和通过发展高级设计语言促进系统化构思方面的重要性。下表 1 总结了最常用的传统构思技术、其过程、局限性、涉及的认知原则以及在产生创意方面的预期结果。

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

虽然这些传统方法已被广泛使用，但它们往往无法为新手设计师提供积极的支持。在产生新颖想法的过程中，原创性和多样性主要依赖于设计者。这一空白标志着将人工智能与构思相结合的潜力。

这篇论文就深入探讨了对话式人工智能（CAI）系统的设计、开发和潜在使用案例，重点是比较基于 CAI 的构思工具与传统方法的效率。

有两个有趣的特点使 CAI 系统看起来很智能：(a) 能够就给定主题生成智力上可接受的文章，(b) 能够在先前交互的基础上生成对后续询问的回复。这使得交互成为关于特定主题的连贯对话。因此，如果特征（a）是对一个观点的描述，那么特征（b）就可以被构建为对该观点的阐述和澄清。

如图 3 所示，这项研究设计并开发了一个主动构思界面，使用了生成式预训练 Transformer（GPT）对话式人工智能系统，该系统嵌入了一个交互式情绪板（moodboard）。GPT 为自然语言交互提供了基础，使其能够根据用户输入做出响应并生成创意陈述，情绪板提供了一种快速记录这些想法的手段。因此，该界面为设计师提供了一个对话式的直观平台，由 GPT 驱动创意生成。

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

由于本研究调查的是建议的基于 CAI 的构思界面对新手设计师的潜在益处，因此招募了 30 名产品设计研究生（下图），分为 A 和 B 两组。

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

论文对这 30 名新手设计师进行了试点研究，让他们使用传统方法和基于 CAI 的新界面，针对给定问题产生创意。然后，让专家小组使用流畅性、新颖性和多样性等关键参数对结果进行了定性比较。

研究结果表明，本文所提出的 AI 工具在生成多产、多样和新颖的想法方面非常有效。通过在每个构思阶段加入提示设计的结构化对话风格，使界面更加统一，更方便设计者使用。结果发现，这种结构化 CAI 界面所产生的反应更加简洁，并与随后的设计阶段（即构思阶段）保持一致。

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

从图 5（a）中可以看出，68% 的专家认为 GPT 产生的想法更有意义。此外，图 5 (b) 显示，GPT 生成的语句的得票率始终高于设计者生成的想法。

下表是 A 和 B 两组的想法陈述对比：

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

以下是不同维度下，人类与 GPT 构思的评估结果对比：

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

更多研究细节，可查看原论文。

结语

创新，长久以来被视为人类不可被机器触及的领地，然而，LLM 所展现的「幻觉」现象却悄然打开了这扇门，揭示了创新机制可能并非我们想象中那般高不可攀。

近期在 AI 创造性研究领域的突破，预示着 AI 在创意之路上或将迎来前所未有的广阔天地。展望未来，或许在不远的将来，我们将见证 AI 科学家、AI 导演、AI 设计师们纷纷挥洒创意，它们的作品将点亮 AI 应用的崭新篇章。

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

以上就是召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强的详细内容，更多请关注其它相关文章！

# 进行了 # 薯条营销推广策略有哪些 # 晋州营销型网站建设 # 河北正规seo优化网站报价 # 廊坊品牌营销推广费用 # 京东关键词大词抢排名 # 邯郸网站优化加盟价格表 # 网站推广的价格明细清单 # 厦门seo兔牙 # 专注高端网站建设排名 # 长征景区网站建设方案 # 是指 # 下表 # 出了 # 产业 # 自己的 # 很多人 # 斯坦福大学 # 关键词 # 多位 # 斯坦福 # follow # claude # cursor # 社交网络 # iis # git # 自动化 ai

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-09-11

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。