从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐


在 AI 领域,扩展定律(Scaling laws)是理解 LM 扩展趋势的强大工具,其为广大研究者提供了一个准则,该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。

但不幸的是,扩展分析在许多基准测试和后训练研究中并不常见,因为大多数研究人员没有计算资源来从头开始构建扩展法则,并且开放模型的训练尺度太少,无法进行可靠的扩展预测。

来自斯坦福大学、多伦多大学等机构的研究者提出了一种替代观察法:可观察的扩展定律(Observational Scaling Laws),其将语言模型 (LM) 的功能与跨多个模型系列的下游性能联系起来,而不是像标准计算扩展规律那样仅在单个系列内。

该方法绕过了模型训练,而是从基于大约 80 个公开可用的模型上建立扩展定律。但这又引出了另一个问题,从多个模型族构建单一扩展定律面临巨大的挑战,原因在于不同模型之间的训练计算效率和能力存在很大差异。

尽管如此,该研究表明,这些变化与一个简单的、广义的扩展定律是一致的,在这个定律中,语言模型性能是低维能力空间(low-dimensional capability space)的函数,而整个模型系列仅在将训练计算转换为能力的效率上有所不同。

使用上述方法,该研究展示了许多其他类型的扩展研究具有惊人的可预测性,他们发现:一些涌现现象遵循平滑的 sigmoidal 行为,并且可以从小模型中预测;像 GPT-4 这样的智能体性能可以从更简单的非智能体基准中精确预测。此外,该研究还展示了如何预测后训练干预措施(如思维链)对模型的影响。 

研究表明,即使仅使用小型 sub-GPT-3 模型进行拟合,可观察的扩展定律也能准确预测复杂现象,例如涌现能力、智能体性能和后训练方法的扩展(例如思维链)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
  • 论文地址:https://arxiv.org/pdf/2405.10938
  • 论文标题:Observational Scaling Laws and the Predictability of Language Model Performance

论文作者共有三位,其中 Yangjun Ruan 为华人作者 ,他本科毕业于浙江大学。

这篇论文也得到了思维链提出者 Jason Wei 的转发评论,Jason Wei 表示,他非常喜欢这项研究。
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
论文介绍

该研究观察到目前存在数百个开放模型,这些模型拥有不同的规模和能力。不过研究者不能直接使用这些模型来计算扩展定律(因为模型族之间的训练计算效率差异很大),但研究者希望存在一个适用于模型族的更通用的扩展定律。

特别是,本文假设 LM 的下游性能是低维能力空间(例如自然语言理解、推理和代码生成)函数,模型族的变化仅仅在于它们将训练计算转换为这些能力的效率。如果这种关系成立,则意味着从低维能力到跨模型族的下游能力存在对数线性关系(这将允许研究者利用现有模型建立扩展定律)(图 1)。该研究使用近 80 个公开可用的 LM 获得了低成本、高分辨率的扩展预测 (右)。
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
通过对标准的 LM 基准分析(例如,Open LLM Leaderboard ),研究者发现了一些这样的能力度量, 这些度量在模型家族内部与计算量之间存在扩展定律关系(R^2 > 0.9)(见下图 3),并且在不同模型家族与下游指标上也存在这种关系。本文将这种扩展关系称为可观察的扩展定律。 

最后,该研究表明使用可观察的扩展定律成本低且简单,因为有一些系列模型足以复制该研究的许多核心发现。通过这种方法,该研究发现只需评估 10-20 个模型就可以轻松地对基准和后训练干预进行扩展预测。
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
涌现能力

关于 LM 是否在某些计算阈值下具有不连续出现的「涌现」能力,以及这些能力是否可以使用小模型进行预测,一直存在着激烈的争论。可观察的扩展定律表明,其中一些现象遵循平滑的 S 形曲线,并且可以使用小型 sub Llama-2 7B 模型进行准确预测。
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
智能体能力

该研究表明,正如 AgentBench 和 AgentBoard 所测量的,LM 作为智能体的更高级、更复杂的能力可以使用可观察的扩展定律来预测。通过可观察的扩展定律,该研究仅使用较弱的模型(sub GPT-3.5)就能精确预测 GPT-4 的性能,并将编程能力确定为驱动智能体性能的因素。

后训练方法扩展

该研究表明,即使将扩展定律拟合到较弱的模型(sub Llama-2 7B)上,扩展定律也可以可靠地预测后训练方法的收益,例如思维链(Chain-of-Thought)、自洽性(Self-Consistency)等等。

总的来说,该研究的贡献是提出可观察的扩展定律,利用了计算、简单能力度量和复杂下游指标之间可预测的对数线性关系。

验证可观察的扩展定律

研究者通过实验验证了这些扩展定律的有用性。此外,在论文发布后,研究者还预注册了对未来模型的预测,以测试扩展定律是否对当前的模型过拟合。关于实现过程和收集数据的相关代码已在 GitHub 上放出:

GitHub 地址:https://github.com/ryoungj/ObsScaling

涌现能力的可预测性

下图 4 展示了使用 PC(principal capability)度量的预测结果,以及基于训练 FLOPs 来预测性能的基线结果。可以发现,即使仅仅使用性能不佳的模型,也可以使用本文的 PC 度量来准确预测这些能力。

相反,使用训练 FLOPs 会导致测试集上的外推效果和训练集上的拟合效果明显更差,正如更高的 MSE 值所示。这些差异可能是由不同模型系列的训练 FLOPs 导致的。
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
智能体能力可预测性

下图 5 展示了使用 PC 度量后,可观察的扩展定律的预测结果。可以发现,在两个智能体基准上,使用 PC 度量的留出模型(GPT-4 或 Claude-2)的性能可以从更弱性能(10% 以上的差距)的模型中准确地预测出。

这表明 LMs 的更复杂智能体能力与它们的基础模型能力息息相关,并能够基于后者进行预测。这也说明了随着基干 LMs 持续扩展规模,基于 LM 的智能体能力具有良好的扩展特性。
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
后训练技术的影响

下图 6a 展示了使用可观察的扩展定律,CoT 和 SC(Self-Consistency,自洽性)的扩展预测结果。可以发现,使用 CoT 和 CoT+SC 但不使用(Naive)后训练技术的更强、规模更大模型的性能可以从更弱、更小计算规模(比如模型大小和训练 FLOPs)的模型中准确预测出。

值得注意的是,两种技术之间的扩展趋势不同,其中与使用 CoT 的自洽性相比,CoT 表现出更明显的扩展趋势。
从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
更多技术细节请参阅原论文。

以上就是从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐的详细内容,更多请关注其它相关文章!


# 扩展定律  # 301网站优化  # 小马过河网站建设  # 跳水教案网站建设  # 江苏短视频推广营销系统  # 转换为  # 三季度  # 广州  # 量产  # 是从  # 多个  # 丰田  # 的是  # 展示了  # 可以使用  # llama  # claude  # git  # 产业  # 推广wang网站  # 虫虫seo软件怎么样  # 四川展示型网站建设技术  # seo公司费用相信乐云seo  # 教育网站如何做推广运营  # 网络营销怎么推广引流 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 卫星通信牵引物联网竞争升维,模组厂商如何决胜百亿市场?  不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”  衡水市冀州中学机器人社团在世界机器人大赛中斩获佳绩  九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布  人工智能如何用于家庭安全  30+大模型齐聚,大模型成世界人工智能大会“顶流”  人工智能正在弥合认知和表达之间的鸿沟  GPT-4不能在麻省理工学院获得计算机科学学位  2025年的网络分区:人工智能和自动化如何改变事物  鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?  小米创始人雷军将揭示小米AI在年度演讲中的最新进展  了解 AGI:智能的未来?  下一个前沿:量子机器学习和人工智能的未来  《上古卷轴5》AI高清材质包优化游戏中所有怪物  日入400万,第一批AI骗子已上岗  WHEE使用教程  看似低调,实则稳健:字节在AI路上会遇到什么?  腾讯机器狗进化:通过深度学习掌握自主决策能力  OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试  Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam  两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏  Intel酷睿Ultra发布会官宣!迈向全新的AI时代  城市在采用人工智能方面进展如何?  从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界  网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手  AI室内设计软件流行,室内设计行业如何应对效率变革  人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!  华为盘古AI模型实现秒级全球气象预报时间缩短  650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了  Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙  读创正式上线“读创AI聊”功能  时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体  海南科技职业大学第25届中国机器人及人工智能大赛海南赛区荣获一等奖等114项  关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知  云米Smart 2E AI立式空调开启预售:新三级能效,到手价3899元  AI进军债券交易,BondGPT来了!  大模型新品出现井喷,AI产业迎来新时代  陈丹琦ACL学术报告来了!详解大模型「*」数据库7大方向3大挑战,3小时干货满满  GPT-4是如何工作的?哈佛教授亲自讲授  标贝科技亮相国际顶会ICASSP2025 加速布局海外AI数据市场  机器人 展才能  当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜?  微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取  可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能  "探索Meta发布的Quest MR/VR视频录制与拍摄指南"  央视报道!星纪魅族集团车载人机交互技术成世界移动通信大会焦点  周星驰支持的人工智能与 Web3 初创公司 Moonbox 完成 100 万美元融资  利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队  周鸿祎参加中美青年科技创新峰会,分享人工智能创新机遇  AI生成会议纪要 百度如流升级推出超级助手、智能编码等功能 

 2024-05-25

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.