从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐
在 AI 领域,扩展定律(Scaling laws)是理解 LM 扩展趋势的强大工具,其为广大研究者提供了一个准则,该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。但不幸的是,扩展分析在许多基准测试和后训练研究中并不常见,因为大多数研究人员没有计算资源来从头开始构建扩展法则,并且开放模型的训练尺度太少,无法进行可靠的扩展预测。来自斯坦福大学、多伦多大学等机构的研究者提出了一种替代观察法:可观察的扩展定律(Observational Scaling Laws),其将语言模型 (LM) 的功能与跨多个模型系列的下游性能联系起来,而不是像标准计算扩展规律那样仅在单个系列内。该方法绕过了模型训练,而是从基于大约 80 个公开可用的模型上建立扩展定律。但这又引出了另一个问题,从多个模型族构建单一扩展定律面临巨大的挑战,原因在于不同模型之间的训练计算效率和能力存在很大差异。尽管如此,该研究表明,这些变化与一个简单的、广义的扩展定律是一致的,在这个定律中,语言模型性能是低维能力空间(low-dimensional capability space)的函数,而整个模型系列仅在将训练计算转换为能力的效率上有所不同。使用上述方法,该研究展示了许多其他类型的扩展研究具有惊人的可预测性,他们发现:一些涌现现象遵循平滑的 sigmoidal 行为,并且可以从小模型中预测;像 GPT-4 这样的智能体性能可以从更简单的非智能体基准中精确预测。此外,该研究还展示了如何预测后训练干预措施(如思维链)对模型的影响。 研究表明,即使仅使用小型 sub-GPT-3 模型进行拟合,可观察的扩展定律也能准确预测复杂现象,例如涌现能力、智能体性能和后训练方法的扩展(例如思维链)。
☞☞☞AI 智能聊天, 问答助手, AI
智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

- 论文地址:https://arxiv.org/pdf/2405.10938
- 论文标题:Observational Scaling Laws and the Predictability of Language Model Performance
论文作者共有三位,其中 Yangjun Ruan 为华人作者 ,他本科毕业于浙江大学。这篇论文也得到了思维链提出者 Jason Wei 的转发评论,Jason Wei 表示,他非常喜欢这项研究。该研究观察到目前存在数百个开放模型,这些模型拥有不同的规模和能力。不过研究者不能直接使用这些模型来计算扩展定律(因为模型族之间的训练计算效率差异很大),但研究者希望存在一个适用于模型族的更通用的扩展定律。特别是,本文假设 LM 的下游性能是低维能力空间(例如自然语言理解、推理和代码生成)函数,模型族的变化仅仅在于它们将训练计算转换为这些能力的效率。如果这种关系成立,则意味着从低维能力到跨模型族的下游能力存在对数线性关系(这将允许研究者利用现有模型建立扩展定律)(图 1)。该研究使用近 80 个公开可用的 LM 获得了低成本、高分辨率的扩展预测 (右)。通过对标准的 LM 基准分析(例如,Open LLM Leaderboard ),研究者发现了一些这样的能力度量, 这些度量在模型家族内部与计算量之间存在扩展定律关系(R^2 > 0.9)(见下图 3),并且在不同模型家族与下游指标上也存在这种关系。本文将这种扩展关系称为可观察的扩展定律。 最后,该研究表明使用可观察的扩展定律成本低且简单,因为有一些系列模型足以复制该研究的许多核心发现。通过这种方法,该研究发现只需评估 10-20 个模型就可以轻松地对基准和后训练干预进行扩展预测。关于 LM 是否在某些计算阈值下具有不连续出现的「涌现」能力,以及这些能力是否可以使用小模型进行预测,一直存在着激烈的争论。可观察的扩展定律表明,其中一些现象遵循平滑的 S 形曲线,并且可以使用小型 sub Llama-2 7B 模型进行准确预测。该研究表明,正如 AgentBench 和 AgentBoard 所测量的,LM 作为智能体的更高级、更复杂的能力可以使用可观察的扩展定律来预测。通过可观察的扩展定律,该研究仅使用较弱的模型(sub GPT-3.5)就能精确预测 GPT-4 的性能,并将编程能力确定为驱动智能体性能的因素。该研究表明,即使将扩展定律拟合到较弱的模型(sub Llama-2 7B)上,扩展定律也可以可靠地预测后训练方法的收益,例如思维链(Chain-of-Thought)、自洽性(Self-Consistency)等等。总的来说,该研究的贡献是提出可观察的扩展定律,利用了计算、简单能力度量和复杂下游指标之间可预测的对数线性关系。研究者通过实验验证了这些扩展定律的有用性。此外,在论文发布后,研究者还预注册了对未来模型的预测,以测试扩展定律是否对当前的模型过拟合。关于实现过程和收集数据的相关代码已在 GitHub 上放出:GitHub 地址:https://github.com/ryoungj/ObsScaling下图 4 展示了使用 PC(principal capability)度量的预测结果,以及基于训练 FLOPs 来预测性能的基线结果。可以发现,即使仅仅使用性能不佳的模型,也可以使用本文的 PC 度量来准确预测这些能力。相反,使用训练 FLOPs 会导致测试集上的外推效果和训练集上的拟合效果明显更差,正如更高的 MSE 值所示。这些差异可能是由不同模型系列的训练 FLOPs 导致的。下图 5 展示了使用 PC 度量后,可观察的扩展定律的预测结果。可以发现,在两个智能体基准上,使用 PC 度量的留出模型(GPT-4 或 Claude-2)的性能可以从更弱性能(10% 以上的差距)的模型中准确地预测出。这表明 LMs 的更复杂智能体能力与它们的基础模型能力息息相关,并能够基于后者进行预测。这也说明了随着基干 LMs 持续扩展规模,基于 LM 的智能体能力具有良好的扩展特性。下图 6a 展示了使用可观察的扩展定律,CoT 和 SC(Self-Consistency,自洽性)的扩展预测结果。可以发现,使用 CoT 和 CoT+SC 但不使用(Naive)后训练技术的更强、规模更大模型的性能可以从更弱、更小计算规模(比如模型大小和训练 FLOPs)的模型中准确预测出。值得注意的是,两种技术之间的扩展趋势不同,其中与使用 CoT 的自洽性相比,CoT 表现出更明显的扩展趋势。以上就是从80个模型中构建Scaling Law:华人博士生新作,思维链提出者力荐的详细内容,更多请关注其它相关文章!
# 扩展定律
# 301网站优化
# 小马过河网站建设
# 跳水教案网站建设
# 江苏短视频推广营销系统
# 转换为
# 三季度
# 广州
# 量产
# 是从
# 多个
# 丰田
# 的是
# 展示了
# 可以使用
# llama
# claude
# git
# 产业
# 推广wang网站
# 虫虫seo软件怎么样
# 四川展示型网站建设技术
# seo公司费用相信乐云seo
# 教育网站如何做推广运营
# 网络营销怎么推广引流
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
卫星通信牵引物联网竞争升维,模组厂商如何决胜百亿市场?
不止“文心一言”,消息称百度将推出全新 AI 对话软件“万话”
衡水市冀州中学机器人社团在世界机器人大赛中斩获佳绩
九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布
人工智能如何用于家庭安全
30+大模型齐聚,大模型成世界人工智能大会“顶流”
人工智能正在弥合认知和表达之间的鸿沟
GPT-4不能在麻省理工学院获得计算机科学学位
2025年的网络分区:人工智能和自动化如何改变事物
鸿蒙生态带来了哪些新的流量可能性,包括AI、服务分发和原生智能等方面?
小米创始人雷军将揭示小米AI在年度演讲中的最新进展
了解 AGI:智能的未来?
下一个前沿:量子机器学习和人工智能的未来
《上古卷轴5》AI高清材质包优化游戏中所有怪物
日入400万,第一批AI骗子已上岗
WHEE使用教程
看似低调,实则稳健:字节在AI路上会遇到什么?
腾讯机器狗进化:通过深度学习掌握自主决策能力
OpenOOD更新v1.5:全面、精确的分布外检测代码库及测试平台,支持在线排行榜、一键测试
Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam
两小时就能超过人类!DeepMind最新AI速通26款雅达利游戏
Intel酷睿Ultra发布会官宣!迈向全新的AI时代
城市在采用人工智能方面进展如何?
从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界
网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手
AI室内设计软件流行,室内设计行业如何应对效率变革
人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!
华为盘古AI模型实现秒级全球气象预报时间缩短
650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了
Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙
读创正式上线“读创AI聊”功能
时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体
海南科技职业大学第25届中国机器人及人工智能大赛海南赛区荣获一等奖等114项
关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知
云米Smart 2E AI立式空调开启预售:新三级能效,到手价3899元
AI进军债券交易,BondGPT来了!
大模型新品出现井喷,AI产业迎来新时代
陈丹琦ACL学术报告来了!详解大模型「*」数据库7大方向3大挑战,3小时干货满满
GPT-4是如何工作的?哈佛教授亲自讲授
标贝科技亮相国际顶会ICASSP2025 加速布局海外AI数据市场
机器人 展才能
当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜?
微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取
可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能
"探索Meta发布的Quest MR/VR视频录制与拍摄指南"
央视报道!星纪魅族集团车载人机交互技术成世界移动通信大会焦点
周星驰支持的人工智能与 Web3 初创公司 Moonbox 完成 100 万美元融资
利用AI探索抗体“钥匙”、加速药物研发——访百图生科团队
周鸿祎参加中美青年科技创新峰会,分享人工智能创新机遇
AI生成会议纪要 百度如流升级推出超级助手、智能编码等功能
2024-05-25