训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线


deepseek r1 今年一月横空出世,其创新方法和极低的算力需求,给英伟达等巨头带来了巨大冲击,也引发了业界对agi发展路径的深刻反思。通往agi之路并非只有扩大算力规模一条路,更高效的方法才能带来更多创新。

近期,全球众多科技公司和研究团队都在尝试复现DeepSeek。而就在此时,一项名为s1的新方法宣告问世,它大幅提升了AI的推理效率。你或许会感到难以置信! 图片s1论文作者,斯坦福大学在读博士Niklas Muennighoff指出,DeepSeek R1令人兴奋,但其缺乏OpenAI的测试时间扩展图,且需要海量数据。而s1仅需1000个样本和简单的测试时间干预,即可复现o1的预览扩展和性能。

这项由斯坦福大学、华盛顿大学等机构主导的研究,探索了一种极简的测试时间扩展(test-time scaling)方法。令人惊叹的是,该方法仅用1000个问题训练模型,就实现了超越o1的强推理性能。

测试时间扩展是一种极具潜力的语言建模新方法,它利用额外的测试时间计算来提升模型性能。OpenAI的o1模型曾展示了这种能力,但其方法并未公开。许多研究都致力于复现o1,尝试了蒙特卡洛树搜索、多智能体等多种方法。而今年一月开源的DeepSeek R1,则通过数百万样本的多阶段强化学习,成功实现了o1级别的性能。

s1研究人员则另辟蹊径,寻求最简化的测试时间扩展方法。他们构建了一个包含1000个问题的s1K数据集,并根据难度、多样性和质量三个标准,与推理轨迹进行匹配。

基于此,研究人员提出了“预算强制”技术,通过强制终止模型的思考过程,或在模型试图结束时多次添加“等待”指令来延长思考时间,从而控制测试时间计算。 这有助于模型仔细检查答案,修正错误的推理步骤。

在s1K数据集上,研究人员对Qwen2.5-32B-Instruct语言模型进行了监督微调(使用16块H100 GPU,耗时26分钟),并应用了预算强制技术。最终得到的s1-32B模型,在竞赛数学问题上的表现,比o1-preview高出27%(MATH和AIME24)。图片s1性能与其他大模型的对比。图片

  • 论文:《s1: Simple test-time scaling》
  • 论文链接:https://www.php.cn/link/c1160f0432464eb6110ada4a0ac56917
  • 项目链接:https://www.php.cn/link/2d0d322f5fec1cda1b8b4c0020d61c37

测试时间扩展

本文将测试时间扩展方法分为两类:1. 序列扩展(后续计算依赖于先前结果);2. 并行扩展(计算独立运行)。

本文重点关注序列扩展,因为它更具扩展性,后续计算可以基于中间结果进行迭代优化。

此外,本文还提出了一种新的序列扩展方法及基准测试方法:预算强制(Budget forcing)。该方法通过在测试时强制设定最大或最小思考token数量来实现解码时间干预。图片 具体来说,通过添加思考结束token分隔符和“Final Answer:”来强制设定最大token数量;而通过抑制思考结束token分隔符的生成,并添加“Wait”指令,来强制设定最小token数量。

Health AI健康云开放平台 Health AI健康云开放平台

专注于健康医疗垂直领域的AI技术开放平台

Health AI健康云开放平台 113 查看详情 Health AI健康云开放平台

基准测试方法包括:条件长度控制方法(token、步骤、类条件控制)和拒绝采样。

实验

训练阶段:使用s1K数据集对Qwen2.5-32B-Instruct进行监督微调,得到s1-32B模型(16块NVIDIA H100 GPU,26分钟)。

评估:使用AIME24、MATH500和GPQA Diamond三个推理基准进行评估。

对比模型:OpenAI o1、DeepSeek r1、Qwen QwQ-32B-preview等。s1-32B完全开源,包括权重、推理数据和代码

性能

测试时间扩展:图片图片 结果显示,过度抑制思考结束token可能会导致模型陷入循环。序列扩展比并行扩展更有效。

样本效率:图片图片 s1-32B是样本效率最高的开放数据推理模型,仅用1000个样本就取得了优异的性能。 s1-32B在AIME24上的表现与Gemini 2.0 Thinking不相上下。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片 文中还包含了详细的消融实验结果,感兴趣的读者可以参考原文论文。

以上就是训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线的详细内容,更多请关注其它相关文章!


# 但其  # seo是怎样排名的  # 大连网站建设顾问  # 单页 seo 架构  # 沧州 网站建设  # 南京seo月薪多少合适  # 新媒体营销推广营销  # 童装网站推广怎么推广  # 公众号营销推广网站推荐  # 全国建设用地网站查询  # 余杭区网站建设  # 画出  # 内测  # 产业  # 生命科学  # 多家  # 等人  # 提出了  # 就能  # 斯坦福大学  # 一言  # qwen  # deepseek  # gemini  # ai  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 如何成功实施人工智能?  创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现  “苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线  能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高  参议院司法听证会:AI 不易管控,有可能被恶意分子利用来研发生化武器  会模仿笔迹的AI,为你创造专属字体  零数科技CTO兰春嘉:区块链与人工智能的结合点在数据  新华三集团总裁兼首席执行官于英涛:人工智能时代需要想象力,更需要精耕务实  650亿参数,8块GPU就能全参数微调:邱锡鹏团队把大模型门槛打下来了  实践J*a开发,构建高性能的MongoDB数据迁移工具  OpenAI 已全面开放 GPT-3.5 Turbo、DALL-E 及 Whisper API  Hugging Face发布了基于NASA卫星数据构建的AI地理空间基础模型  李开复:未来几年,人工智能会革了所有人的命,除非你这么做  2025世界人工智能大会前沿科技共绘“未来”图景, 这家这家独角兽企业的通用大脑将在AI领域大放异彩  AI室内设计软件流行,室内设计行业如何应对效率变革  AI智能室内效果图设计软件效果,确实惊到我了!  美图吴欣鸿:希望更多人用上AI时代的影像生产力工具  朝鲜出现国产大型察打一体无人机,实力世界第二,太意外了  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  实现MySQL数据锁定策略:解决并发冲突的J*a解决方案  “可用”“有用”的讯飞星火认知大模型将亮相世界人工智能大会  世界水下机器人大赛:9国青年携手逐梦深蓝  家电行业观察:AI加持下,全屋智能将成为智能家电未来?  应对算力挑战,亚马逊云科技发力AI基础设施建设  AI无法对传统文化符号进行解构和创新  谷歌计划在上海举办开发者大会,重点关注机器学习和生成式AI领域  OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练  浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库  看了天美对AI的布局,我感觉它想得是真明白  微软向美国政府提供GPT大模型,如何保证安全性?  软通动力天枢元宇宙研究院签约落户江宁高新区  亚马逊CEO:人工智能将成为公司未来战略的重中之重  人工智能产业竞跑“未来赛道” 创新发展放大“赋能”效应  行业首发「超级智绘」AI故事集,TCL实业推进AI技术应用  LinkedIn 推出生成式 AI 辅助撰写帖文功能,将向所有用户开放  IBM CEO克里希纳:人工智能潜在创新无法被监管  有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光  高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案  人工智能在商业中的风险和局限性  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  “世界人工智能之都”的新烦恼:AI热潮无法拉动大量就业  特斯拉 Optimus 人形机器人入驻北美门店,帮助提升汽车销量  MiracleVision视觉大模型上线时间  谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能  航拍无人机怎么选?大疆无人机盘点推荐  WHEE功能介绍  了解 AGI:智能的未来?  中国联通发布图文AI大模型,可实现以文生图、视频剪辑  周鸿祎:360智脑开放API接口 AI大模型将赋能百行千业  研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化 

 2025-02-05

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.