刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错


快速更迭的开源大模型领域,又出现了新王:Reflection 70B。

横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。

这个新模型 Reflection 70B,来自 AI 写作初创公司 HyperWrite。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

刚刚,开源大模型的新王诞生了:超越gpt-4o,模型还能自动纠错

HyperWrite 公司的 CEO Matt Shumer 表示,Reflection-70B 现在是「世界上最顶级的开源 AI 模型」。

Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。

Reflection 70B 已在多个基准测试中经过严格测试,包括 MMLU 和 HumanEval。测试结果表明, Reflection 的表现始终优于 Meta 的 Llama 系列,并与 GPT-4o 等全球顶尖的商用模型展开了激烈竞争。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

其中,它在 GSM8K 的得分甚至达到了 99.2%。要知道,GSM8k 中可能有有超过 1% 的被标为正确的答案实际上有错,也就是说,Reflection 70B 的得分几乎与满分无异。

值得注意的还有 Reflection 70B 的零样本推理能力。面对从未接触过的内容,Reflection 70B 的表现超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次样本测试中的得分。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

Reflection 70B 特别适用于需要高精度的任务,它将推理分为不同的步骤以提高精度。该模型可通过 Hugging Face 下载,API 访问将于今天晚些时候通过 GPU 服务提供商 Hyperbolic Labs 提供。

  • Hugging Face:https://huggingface.co/mattshumer/Reflection-70B
  • 试用网址:https://reflection-playground-production.up.railway.app/

假设训练有素
模型自动纠错

在通用能力之外,Reflection 70B 的亮点还包括「错误识别」和「错误纠正」。

一种名为「Reflection-Tuning」的技术,使得模型能够在最终确定回复之前,先检测自身推理的错误并纠正。

Reflection 70B 引入了几个用于推理和纠错的特殊 token,使用户能够以更结构化的方式与模型交互。在推理过程中,模型会在特殊标签内输出其推理,以便在检测到错误时进行实时纠正。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

Playground 演示网站包含供用户使用的建议提示词,比如那些很经典的例子:询问 Reflection 70B 单词「Strawberry」中有多少个「r」,以及哪个数字更大(9.11 还是 9.9),这两个简单的问题曾经难倒过很多大模型。

Reflection 70B 在测试中显得有些迟缓,但最终 60 多秒后给出了正确的答案。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

Reflection 70B 的发布只是 Reflection 系列的开端。与此同时,Reflection 405B 也在推出的路上了,预计下周上市。Shumer 表示,它的性能将远远超过目前的专有或闭源 LLM,例如目前全球领先的 OpenAI 的 GPT-4o。

Shumer 宣布,HyperWrite 正致力于将 Reflection 70B 模型集成到其主要的 AI 写作助手产品中。

Reflection 405B 有望超越当今市场上最顶尖的闭源模型。HyperWrite 将发布一份报告,详细介绍训练过程和基准,以及 Reflection 模型背后的创新之处。

两个人在几周内完成
归功于 Glaive 的合成数据

Shumer 表示完成 Reflection 70B 只花了三周,团队只有他和另一位 AI 创业公司的创始人 Sahil Chaudhary 两个人。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

在这么短的时间内做出效果如此好的模型,Shumer 称,都要拜 Sahil 的公司 Glaive 所赐。Glaive 是一家专门为特定需求构建数据集的初创公司。Shumer 在 X 平台上反复 que 这一点:「联系了 Sahil 之后,训练数据几小时内就生成好了。」他还亲自站台安利:「如果你在训练 AI 模型,一定要试试 Glaive 提供的服务。」

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

Glaive 专注于解决 AI 开发中最大的瓶颈之一:高质量、任务特定数据的可用性。在去年获得了一轮 350 万美元的种子轮融资。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

                             Sahil Chaudhary 

小型、更专业化的语言模型在使用 Glaive 提供的服务后,能够更快地完成训练。已经有一些小模型使用该公司已经证明了 Glaive 的能力,例如一个 3B 参数模型在 HumanEval 等任务上的表现超过了许多参数规模更大的开源模型。

火得措手不及
GPU 不够用了

Reflection 70B 一经发布,就火了,跑去试用的人太多,模型已经反应不过来了。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

本来可以在线试用 Reflection 70B,但现在和它聊天反应很慢。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover
但是根据手快的网友发来的测评,Reflection 70B 也确实没辜负六个基础测试集里有四个都打败了 Claude 3.5 Sonnet 的战绩。

比如,它是首个能想明白这道缠绕不清的逻辑题的大模型。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

提示词:有人在某地杀了 Agatha。Agatha、管家和 Charles 住在 此地,并且是那里唯一的居民。杀手恨他的目标,并且比受害者穷。Charles 不恨 Agatha 恨的任何人。Agatha 除了管家之外恨所有人。管家恨所有不如 Aunt Agatha 富有的人。管家恨所有 Agatha 恨的人。没有人恨所有人。谁杀了 Agatha?

向它提问:「柏林的魏森湖地区当地人通常在哪里聚会?当地有哪些景点?」。对于这些本地人才知道的答案,其他模型虽然也能给出一些正确的回复,但是总会冒出一些在柏林之外的地点。Reflection 70B 是第一个能正确地说出主要地点,并且没有幻觉的模型。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

Reflection-70B 的编码能力也得到了认证。有网友在 ProLLM 的编码辅助任务中对 Reflection-70B 进行了基准测试。它确实是最好的开源模型之一,击败了 Llama-3.1 405B。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

不过,爆火的同时,由于 Reflection 70B 的底层模型采用了 Meta 的 Llama 3.1 70B Instruct,这也引发了一些争议。

有网友认为:「Reflection 70B 只是一种元提示(Meta-Prompting)的进步,似乎不能算是一种创新。」

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

但也有人对此提出反对,认为「利用思维链和让大模型说出自己的工作流程」这种方法能让大模型更好地模拟人类思考的过程。

「万一 Shumer 的方法 Reflection-tuning,就是 OpenAI 的 Strawberry 的方法呢?」

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

团队介绍

乍一看,Reflection 70B 似乎是横空出世,HyperWrite 的知名度并不高。但其实 Shumer 已是 AI 领域的创业老将了:2025 年,他与就 Jason Kuperberg 共同创立了 Otherside AI。

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

                             从左至右分别为 Otherside AI 的联合创始人:Matt Shumer, Miles Feldstein 与 Jason Kuperberg。

Otherside AI 凭借其当家产品 HyperWrite 收获了一波流量。HyperWrite 最初是一款根据要点撰写邮件和消息的 Chrome 插件。后来,它的功能越来越强大,拓展出了起草文章、总结文本等功能。截至 2025 年 11 月,HyperWrite 拥有两百万用户。随着两位联合创始人登上了福布斯年度「30 岁以下精英」榜单,Otherside AI 也正式更名为 HyperWrite。 

在最新一轮融资中, HyperWrite 获得了 280 万美元的投资。在这笔资金的加持下,HyperWrite 引入了 AI 驱动功能,升级成了可以从网页浏览器自动完成预定航班、在 LinkedIn 上筛简历的智能管家。 

刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错

                             HyperWrite 在线帮你订达美乐披萨的外卖。

参考链接:https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/

以上就是刚刚,开源大模型的新王诞生了:超越GPT-4o,模型还能自动纠错的详细内容,更多请关注其它相关文章!


# 一键  # 巩义旅游网站建设公司  # 网站seo优化百度  # 深圳网站建设大全  # 推广营销名片怎么写文案  # 中山单页seo优化  # 成都网络推广网络营销  # 碑林区营销策划推广  # 苒升科技网站推广  # 江苏品质网站建设性价比  # 西华网站推广公司电话  # 音画  # 测试中  # 来袭  # 产业  # 更大  # 出了  # 的人  # 诞生了  # 开源  # 还能  # hyperwrite  # playground  # llama  # claude  # gemini  # hugging face 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: AI证件照生成器:实际测试中AI软件展现了绝无仅有的强大效能  【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资  泗洪:畅通城市“血管” ,管下机器人来帮忙  谷歌将使用公开信息训练 AI 模型,构建更强大的自家产品  自己动手使用AI技术实现数字内容生产  曝光HarmonyOS 4的重要新能力:全面升级AI大模型,小艺实现全面进化  英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍  走进首家“元宇宙”未来工厂,卡奥斯探知工业之旅出发!  鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代  微幼科技晨检机器人与人工晨检相比,有何优势  谷歌推出新 AI 工具 Imagen Editor,一句话对图片二次创作  华为昇腾AI原生支持30多种基础大模型,包括GPT  周鸿祎参加中美青年科技创新峰会,分享人工智能创新机遇  九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布  郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸  京东 AI 大模型官宣 7 月 13 日发布,还有重磅合作  田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘  这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性  人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!  AI 大模型重塑软件开发,有哪些落地前景和痛点?| ArchSummit  尼康尼克尔Z 180-600mm f/5.6-6.3 VR镜头发布:12499元 拍鸟神器  OpenAI 引入个性化指令功能,消除对话中的重复偏好与信息  500元一张的AI艺术二维码制作,详细教程来了!  百川智能发布Baichuan-13B AI模型,号称“130亿参数开源可商用”  Meta将VR头显最低年龄限制从13岁降至10岁  电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC  Vision Pro头显重磅发布;苹果收购AR厂商Mira  大疆 DJI Mini 4 Pro 无人机曝光:流线设计,有望迎来功能性提升  海南科技职业大学第25届中国机器人及人工智能大赛海南赛区荣获一等奖等114项  微软推出人工智能模型 CoDi,可互动和生成多模态内容  IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步  “技术+实践+生态”三箭齐发,京东方抢占物联网高地  人形机器人打开精密齿轮市场全新空间!受益上市公司梳理  GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了  研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化  从谷歌到亚马逊,科技巨头们的AI痴迷  全球首款AI裸眼3D平板 国产的售价破万  黄仁勋:5年前,我们对AI抱有巨大期望  携程发布旅游行业垂直大模型 梁建章:AI策略是做可靠的内容 放心的推荐  如何用AI重塑你的工作流(一)  AI会帮我们把活干完吗?  消息称 Meta Quest 将推 VR 游戏订阅:每月 7.99 美元,任选两款  利好来了,AI再起一波?  智能电网技术:提高能源效率和可靠性  重塑未来生活的五项技术趋势  Meta发布音频AI模型,仅需2秒片段模拟真人语音  尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元  直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院  脑机接口产业联盟发布十大脑机接口关键技术  美图设计室2.0什么时候上线 

 2024-09-06

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.