首页 > 营销学院 > IT资讯

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

gpt-4有能力做论文评审吗？

来自斯坦福等大学的研究人员还真测试了一把。

他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章，让它生成评审意见（包括修改建议啥的），然后与人类给的意见进行比较。

经过调查，我们发现：

GPT-4提出的超50%观点与至少一名人类评审员一致；

并且有超过82.4%的作者发现GPT-4提供的意见非常有帮助

这项研究能给我们带来哪些启示呢？

结论是：

高质量的人类反馈仍然不可替代；但GPT-4可以帮助作者在正式同行评审前改进初稿。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

具体来看。

实测GPT-4论文评审水平

为了证明GPT-4的潜力，研究人员首先用GPT-4创建了一个自动pipeline。

它能够分析整篇PDF格式的论文，提取标题、摘要、图表、表格标题等内容，以建立提示语

然后让GPT-4提供评审意见。

其中，意见和各顶会的标准一样，共包含四个部分：

研究的重要性和新颖性，以及可能被接受或拒绝的原因和改进建议

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

具体实验从两方面展开。

首先是量化实验：

阅读现有论文，生成反馈，并与真实人类观点进行系统比较，以找出重叠部分

在此，团队从Nature正刊和各大子刊挑选了3096篇文章，从ICLR机器学习会议（包含去年和今年）挑选了1709篇，共计4805篇。

其中，Nature论文共涉及8745条人类评审意见；ICLR会议涉及6506条。

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

GPT-4给出意见之后，pipeline就在match环节分别提取人类和GPT-4的论点，然后进行语义文本匹配，找到重叠的论点，以此来衡量GPT-4意见的有效性和可靠度。

结果是：

1、GPT-4意见与人类评审员真实意见显著重叠

整体来看，在Nature论文中，GPT-4有57.55%的意见与至少一位人类评审员一致；在ICLR中，这个数字则高达77.18%。

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

再进一步仔细比较GPT-4与每一位评审员的意见之后，团队又发现：

GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%，在ICLR上降为39.23%。

然而，这与两位人类审稿人之间的重叠率相当

在Nature论文中，人类的平均重叠率为28.58%；而在ICLR上则为35.25%

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

此外，他们还通过分析论文的等级水平（oral、spotlight、或是直接被拒绝的）发现：

对于水平较弱的论文而言，GPT-4和人类审稿人之间的重叠率有望提高。从目前的30%多，可以增加到接近50%

这表明，GPT-4具有很高的辨别能力，可以辨别出水平较差的论文

作者也因此表示，那些需要更实质性修改才能被接收的论文有福了，大伙儿可以在正式提交前多试试GPT-4给出的修改意见。

Narration Box

Narration Box是一种语音生成服务，用户可以创建画外音、旁白、有声读物、音频页面、播客等

68 查看详情 Narration Box

2、GPT-4能够提供非通用的反馈

所谓非通用反馈，即GPT-4不会给出一个适用于多篇论文的通用评审意见。

在此，作者们衡量了一个“成对重叠率”的指标，结果发现它在Nature和ICLR上都显著降低到了0.43%和3.91%。

这表明GPT-4具有特定目标

3、能够与人类观点在重大、普遍问题上达成一致

一般而言，那些最早出现并且被多个评审员提及的意见，往往代表着重要且普遍存在的问题

在这里，团队还发现LLM更有可能识别出多个评审员一致认可的常见问题或缺陷

GPT-4在整体上表现尚可

4、GPT-4给的意见更强调一些与人类不同的方面

研究发现，GPT-4评论研究本身含义的频率是人类的7.27倍，评论研究新颖性的可能性是人类的10.69倍。

以及GPT-4和人类都经常建议进行额外的实验，但人类更关注于消融实验，GPT-4更建议在更多数据集上试试。

作者表示，这些发现表明，GPT-4和人类评审员在各方面的的重视程度各不相同，两者合作可能带来潜在优势。

定量实验之外是用户研究。

本次研究共有308名来自不同机构的AI和计算生物学领域的研究员参与，他们将各自的论文上传给GPT-4进行评审

研究团队收集了他们对GPT-4评审意见的真实反馈。

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

总体而言，超过一半（57.4%）的参与者认为GPT-4生成的反馈很有帮助，包括给到一些人类想不到的点。

以及82.4%的调查者认为它比至少一些人类评审员的反馈更有益。

此外，还有超过一半的人（50.5%）表示，愿意进一步使用GPT-4等大模型来改进论文。

其中一人表示，只需要5分钟GPT-4就给出了结果，这个反馈速度真的非常快，对研究人员改善论文很有帮助。

当然，作者强调：

GPT-4的能力也有一些限制

最明显的是它更关注于“整体布局”，缺少特定技术领域（例如模型架构）的深度建议。

因此，正如作者最后的结论所述：

在正式评审之前，人类评审员的高质量反馈是非常重要的，但我们可以先试水一下，以弥补实验和构建等方面的细节可能被遗漏的情况

当然，他们也提醒：

正式评审中，审稿人应该还是独立参与，不依赖任何LLM。

一作都是华人

本研究一作共三位，都是华人，都来自斯坦福大学计算机科学学院。

论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别

他们分别是：

梁伟欣，该校博士生，也是斯坦福AI实验室（SAIL）成员。他硕士毕业于斯坦福电气工程专业，本科毕业于浙江大学计算机科学。
Yuhui Zhang，同博士生在读，研究方向为多模态AI系统。清华本科毕业，斯坦福硕士毕业。
曹瀚成，该校五年级博士在读，辅修管理科学与工程，同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。

论文链接：https://arxiv.org/abs/2310.01783

以上就是论文投Nature先问问GPT-4！斯坦福实测5000篇，一半意见跟人类评审没差别的详细内容，更多请关注其它相关文章！

# 上海 # 产品的营销推广和内容 # 枞阳建设工程招标网站 # 益阳抖音seo价格多少 # 绥德网站建设哪家好 # 服装推广如何做营销活动 # 青海seo是什么哪家好 # seo博客外链助手 # 泰安seo优化品牌曝光 # 汽车网站建设德升瑞杰 # 卫浴关键词排名方法 # AI # 高质量 # 谁能 # 很有 # 在此 # 多个 # 都是 # 斯坦福大学 # 开源 # 斯坦福 # 论文

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2023-10-06

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。