论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别


gpt-4有能力做论文评审吗?

来自斯坦福等大学的研究人员还真测试了一把。

他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章,让它生成评审意见(包括修改建议啥的),然后与人类给的意见进行比较。

经过调查,我们发现:

GPT-4提出的超50%观点与至少一名人类评审员一致;

并且有超过82.4%的作者发现GPT-4提供的意见非常有帮助

这项研究能给我们带来哪些启示呢?

结论是:

高质量的人类反馈仍然不可替代;但GPT-4可以帮助作者在正式同行评审前改进初稿。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

具体来看。

实测GPT-4论文评审水平

为了证明GPT-4的潜力,研究人员首先用GPT-4创建了一个自动pipeline

它能够分析整篇PDF格式的论文,提取标题、摘要、图表、表格标题等内容,以建立提示语

然后让GPT-4提供评审意见。

其中,意见和各顶会的标准一样,共包含四个部分:

研究的重要性和新颖性,以及可能被接受或拒绝的原因和改进建议

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

具体实验从两方面展开。

首先是量化实验:

阅读现有论文,生成反馈,并与真实人类观点进行系统比较,以找出重叠部分

在此,团队从Nature正刊和各大子刊挑选了3096篇文章,从ICLR机器学习会议(包含去年和今年)挑选了1709篇,共计4805篇。

其中,Nature论文共涉及8745条人类评审意见;ICLR会议涉及6506条。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

GPT-4给出意见之后,pipeline就在match环节分别提取人类和GPT-4的论点,然后进行语义文本匹配,找到重叠的论点,以此来衡量GPT-4意见的有效性和可靠度。

结果是:

1、GPT-4意见与人类评审员真实意见显著重叠

整体来看,在Nature论文中,GPT-4有57.55%的意见与至少一位人类评审员一致;在ICLR中,这个数字则高达77.18%。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

再进一步仔细比较GPT-4与每一位评审员的意见之后,团队又发现:

GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%,在ICLR上降为39.23%。

然而,这与两位人类审稿人之间的重叠率相当

在Nature论文中,人类的平均重叠率为28.58%;而在ICLR上则为35.25%

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

此外,他们还通过分析论文的等级水平(oral、spotlight、或是直接被拒绝的)发现:

对于水平较弱的论文而言,GPT-4和人类审稿人之间的重叠率有望提高。从目前的30%多,可以增加到接近50%

这表明,GPT-4具有很高的辨别能力,可以辨别出水平较差的论文

作者也因此表示,那些需要更实质性修改才能被接收的论文有福了,大伙儿可以在正式提交前多试试GPT-4给出的修改意见。

Narration Box Narration Box

Narration Box是一种语音生成服务,用户可以创建画外音、旁白、有声读物、音频页面、播客等

Narration Box 68 查看详情 Narration Box

2、GPT-4能够提供非通用的反馈

所谓非通用反馈,即GPT-4不会给出一个适用于多篇论文的通用评审意见。

在此,作者们衡量了一个“成对重叠率”的指标,结果发现它在Nature和ICLR上都显著降低到了0.43%和3.91%。

这表明GPT-4具有特定目标

3、能够与人类观点在重大、普遍问题上达成一致

一般而言,那些最早出现并且被多个评审员提及的意见,往往代表着重要且普遍存在的问题

在这里,团队还发现LLM更有可能识别出多个评审员一致认可的常见问题或缺陷

GPT-4在整体上表现尚可

4、GPT-4给的意见更强调一些与人类不同的方面

研究发现,GPT-4评论研究本身含义的频率是人类的7.27倍,评论研究新颖性的可能性是人类的10.69倍。

以及GPT-4和人类都经常建议进行额外的实验,但人类更关注于消融实验,GPT-4更建议在更多数据集上试试。

作者表示,这些发现表明,GPT-4和人类评审员在各方面的的重视程度各不相同,两者合作可能带来潜在优势。

定量实验之外是用户研究

本次研究共有308名来自不同机构的AI和计算生物学领域的研究员参与,他们将各自的论文上传给GPT-4进行评审

研究团队收集了他们对GPT-4评审意见的真实反馈。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

总体而言,超过一半(57.4%)的参与者认为GPT-4生成的反馈很有帮助,包括给到一些人类想不到的点。

以及82.4%的调查者认为它比至少一些人类评审员的反馈更有益。

此外,还有超过一半的人(50.5%)表示,愿意进一步使用GPT-4等大模型来改进论文。

其中一人表示,只需要5分钟GPT-4就给出了结果,这个反馈速度真的非常快,对研究人员改善论文很有帮助。

当然,作者强调:

GPT-4的能力也有一些限制

最明显的是它更关注于“整体布局”,缺少特定技术领域(例如模型架构)的深度建议。

因此,正如作者最后的结论所述:

在正式评审之前,人类评审员的高质量反馈是非常重要的,但我们可以先试水一下,以弥补实验和构建等方面的细节可能被遗漏的情况

当然,他们也提醒:

正式评审中,审稿人应该还是独立参与,不依赖任何LLM。

一作都是华人

本研究一作共三位,都是华人,都来自斯坦福大学计算机科学学院。

论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别

他们分别是:

  • 梁伟欣,该校博士生,也是斯坦福AI实验室(SAIL)成员。他硕士毕业于斯坦福电气工程专业,本科毕业于浙江大学计算机科学。
  • Yuhui Zhang,同博士生在读,研究方向为多模态AI系统。清华本科毕业,斯坦福硕士毕业。
  • 曹瀚成,该校五年级博士在读,辅修管理科学与工程,同时加入了斯坦福大学NLP和HCI小组。此前毕业于清华大学电子工程系本科。

论文链接:https://arxiv.org/abs/2310.01783

以上就是论文投Nature先问问GPT-4!斯坦福实测5000篇,一半意见跟人类评审没差别的详细内容,更多请关注其它相关文章!


# 上海  # 产品的营销推广和内容  # 枞阳建设工程招标网站  # 益阳抖音seo价格多少  # 绥德网站建设哪家好  # 服装推广如何做营销活动  # 青海seo是什么哪家好  # seo博客外链助手  # 泰安seo优化品牌曝光  # 汽车网站建设德升瑞杰  # 卫浴关键词排名方法  # AI  # 高质量  # 谁能  # 很有  # 在此  # 多个  # 都是  # 斯坦福大学  # 开源  # 斯坦福  # 论文 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 热点资讯:家乐福推出聊天机器人;米哈游2025年营收273.4亿元…  如何对员工进行再培训以充分利用供应链管理中的人工智能创新  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  AI拉动PCB发展|行业发现  人工智能自己玩自己  消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款  构建数字文旅新高地!洛阳涧西区开启元宇宙时代  人工智能快速发展 打开就业新空间  对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型  世界人工智能大会上,科大讯飞宣布与华为联手  衡水市冀州中学机器人社团在世界机器人大赛中斩获佳绩  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  2025“春晖杯”人工智能专场对接活动举办  2025世界人工智能大会成功召开  清华&中国气象局大模型登Nature:解决世界级难题,「鬼天气」预报时效首次达3小时  映宇宙集团执行总编辑:元宇宙还是要以人为媒介  OpenAI宣布在伦敦设立海外分部,要招揽“世界级人才”  李开复:未来几年,人工智能会革了所有人的命,除非你这么做  专家解读国家网信办深度合成服务算法备案信息公告:不等于百度、阿里、腾讯等生成式AI产品获批  IBM CEO克里希纳:人工智能潜在创新无法被监管  OpenAI 引入个性化指令功能,消除对话中的重复偏好与信息  复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?  “一般智力”与工艺学批判是认识AI的重要入口 | 社会科学报  AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地  大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战  类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练  Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光  喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新  云南首例达芬奇机器人微创心脏手术成功开展  微软推出人工智能模型 CoDi,可互动和生成多模态内容  DeepMind推惊世排序算法,C++库忙更新!  BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」  30+大模型齐聚,大模型成世界人工智能大会“顶流”  “长沙造”无人机,领先的不止植保  赋能选题探索:AI助手在经济学专业中的应用指南  网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手  华为云盘古大模型3.0发布 AI云服务同时上线:200亿亿次性能  你大脑中的画面,现在可以高清还原了  微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测  为了避免人工智能可能带来的灾难,我们要向核安全学习  从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界  ChatGPT设计出的第一个机器人来了!【附人工智能行业预测】  苹果在韩举办首届中小企业智能制造论坛,加速推动工业4.0发展  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  东软成立魔形科技研究院,积极布局大语言模型系统工程战略,迎接AI时代  IBM和NASA合作发布可追踪碳排放的开源AI基础模型  “无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼  学生作文评分的新趋势:教师与AI的合作模式  沐曦首款AI推理GPU亮相:INT8算力达160TOPS!  有远见!华为四年前注册商标Vision Pro:苹果AR国内要改名 

 2023-10-06

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.