从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐

在 AI 领域，扩展定律（Scaling laws）是理解 LM 扩展趋势的强大工具，其为广大研究者提供了一个准则，该定律在理解语言模型的性能如何随规模变化提供了一个重要指导。

但不幸的是，扩展分析在许多基准测试和后训练研究中并不常见，因为大多数研究人员没有计算资源来从头开始构建扩展法则，并且开放模型的训练尺度太少，无法进行可靠的扩展预测。

来自斯坦福大学、多伦多大学等机构的研究者提出了一种替代观察法：可观察的扩展定律（Observational Scaling Laws），其将语言模型 (LM) 的功能与跨多个模型系列的下游性能联系起来，而不是像标准计算扩展规律那样仅在单个系列内。

该方法绕过了模型训练，而是从基于大约 80 个公开可用的模型上建立扩展定律。但这又引出了另一个问题，从多个模型族构建单一扩展定律面临巨大的挑战，原因在于不同模型之间的训练计算效率和能力存在很大差异。

尽管如此，该研究表明，这些变化与一个简单的、广义的扩展定律是一致的，在这个定律中，语言模型性能是低维能力空间（low-dimensional capability space）的函数，而整个模型系列仅在将训练计算转换为能力的效率上有所不同。

使用上述方法，该研究展示了许多其他类型的扩展研究具有惊人的可预测性，他们发现：一些涌现现象遵循平滑的 sigmoidal 行为，并且可以从小模型中预测；像 GPT-4 这样的智能体性能可以从更简单的非智能体基准中精确预测。此外，该研究还展示了如何预测后训练干预措施（如思维链）对模型的影响。

研究表明，即使仅使用小型 sub-GPT-3 模型进行拟合，可观察的扩展定律也能准确预测复杂现象，例如涌现能力、智能体性能和后训练方法的扩展（例如思维链）。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址：https://arxiv.org/pdf/2405.10938
论文标题：Observational Scaling Laws and the Predictability of Language Model Performance

论文作者共有三位，其中 Yangjun Ruan 为华人作者，他本科毕业于浙江大学。

这篇论文也得到了思维链提出者 Jason Wei 的转发评论，Jason Wei 表示，他非常喜欢这项研究。

论文介绍

该研究观察到目前存在数百个开放模型，这些模型拥有不同的规模和能力。不过研究者不能直接使用这些模型来计算扩展定律（因为模型族之间的训练计算效率差异很大），但研究者希望存在一个适用于模型族的更通用的扩展定律。

特别是，本文假设 LM 的下游性能是低维能力空间（例如自然语言理解、推理和代码生成）函数，模型族的变化仅仅在于它们将训练计算转换为这些能力的效率。如果这种关系成立，则意味着从低维能力到跨模型族的下游能力存在对数线性关系（这将允许研究者利用现有模型建立扩展定律）（图 1）。该研究使用近 80 个公开可用的 LM 获得了低成本、高分辨率的扩展预测 (右)。

通过对标准的 LM 基准分析（例如，Open LLM Leaderboard ），研究者发现了一些这样的能力度量，这些度量在模型家族内部与计算量之间存在扩展定律关系（R^2 > 0.9）（见下图 3），并且在不同模型家族与下游指标上也存在这种关系。本文将这种扩展关系称为可观察的扩展定律。

最后，该研究表明使用可观察的扩展定律成本低且简单，因为有一些系列模型足以复制该研究的许多核心发现。通过这种方法，该研究发现只需评估 10-20 个模型就可以轻松地对基准和后训练干预进行扩展预测。

涌现能力

关于 LM 是否在某些计算阈值下具有不连续出现的「涌现」能力，以及这些能力是否可以使用小模型进行预测，一直存在着激烈的争论。可观察的扩展定律表明，其中一些现象遵循平滑的 S 形曲线，并且可以使用小型 sub Llama-2 7B 模型进行准确预测。

智能体能力

该研究表明，正如 AgentBench 和 AgentBoard 所测量的，LM 作为智能体的更高级、更复杂的能力可以使用可观察的扩展定律来预测。通过可观察的扩展定律，该研究仅使用较弱的模型（sub GPT-3.5）就能精确预测 GPT-4 的性能，并将编程能力确定为驱动智能体性能的因素。

后训练方法扩展

该研究表明，即使将扩展定律拟合到较弱的模型（sub Llama-2 7B）上，扩展定律也可以可靠地预测后训练方法的收益，例如思维链（Chain-of-Thought）、自洽性（Self-Consistency）等等。

总的来说，该研究的贡献是提出可观察的扩展定律，利用了计算、简单能力度量和复杂下游指标之间可预测的对数线性关系。

验证可观察的扩展定律

研究者通过实验验证了这些扩展定律的有用性。此外，在论文发布后，研究者还预注册了对未来模型的预测，以测试扩展定律是否对当前的模型过拟合。关于实现过程和收集数据的相关代码已在 GitHub 上放出：

GitHub 地址：https://github.com/ryoungj/ObsScaling

涌现能力的可预测性

下图 4 展示了使用 PC（principal capability）度量的预测结果，以及基于训练 FLOPs 来预测性能的基线结果。可以发现，即使仅仅使用性能不佳的模型，也可以使用本文的 PC 度量来准确预测这些能力。

相反，使用训练 FLOPs 会导致测试集上的外推效果和训练集上的拟合效果明显更差，正如更高的 MSE 值所示。这些差异可能是由不同模型系列的训练 FLOPs 导致的。

智能体能力可预测性

下图 5 展示了使用 PC 度量后，可观察的扩展定律的预测结果。可以发现，在两个智能体基准上，使用 PC 度量的留出模型（GPT-4 或 Claude-2）的性能可以从更弱性能（10% 以上的差距）的模型中准确地预测出。

这表明 LMs 的更复杂智能体能力与它们的基础模型能力息息相关，并能够基于后者进行预测。这也说明了随着基干 LMs 持续扩展规模，基于 LM 的智能体能力具有良好的扩展特性。

后训练技术的影响

下图 6a 展示了使用可观察的扩展定律，CoT 和 SC（Self-Consistency，自洽性）的扩展预测结果。可以发现，使用 CoT 和 CoT+SC 但不使用（Naive）后训练技术的更强、规模更大模型的性能可以从更弱、更小计算规模（比如模型大小和训练 FLOPs）的模型中准确预测出。

值得注意的是，两种技术之间的扩展趋势不同，其中与使用 CoT 的自洽性相比，CoT 表现出更明显的扩展趋势。

更多技术细节请参阅原论文。

以上就是从80个模型中构建Scaling Law：华人博士生新作，思维链提出者力荐的详细内容，更多请关注其它相关文章！

# 扩展定律 # 301网站优化 # 小马过河网站建设 # 跳水教案网站建设 # 江苏短视频推广营销系统 # 转换为 # 三季度 # 广州 # 量产 # 是从 # 多个 # 丰田 # 的是 # 展示了 # 可以使用 # llama # claude # git # 产业 # 推广wang网站 # 虫虫seo软件怎么样 # 四川展示型网站建设技术 # seo公司费用相信乐云seo # 教育网站如何做推广运营 # 网络营销怎么推广引流

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-05-25

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。