本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。
据介绍,Inflection-2.5将结合强大的LLM技术和Inflection独有的“同理心微调”特性,综合了高情商和高智商的特点。它可以通过联网获取事实信息,性能媲美GPT-4和Gemini等领先的大型模型。
Inflection-2.5 现已向所有 Pi 用户开放,可在 PC 端、iOS 和安卓 App 上免费使用。机器之心简单测试后发现,与GPT-4相比仍有一定差距,但仍值得一试。感兴趣的用户可以自行体验。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
链接:https://pi.ai/talk
Machine Translation
聚合多个来源的AI翻译
49
查看详情
值得注意的是,Inflection-2.5 实现了接近 GPT-4 的性能,而训练过程却仅使用 GPT-4 40% 的算力。
Inflection AI指出,新一代大型模型在智能编码和数学等领域取得了显著进展。这些进展将转化为对关键行业基准的具体改进,从而确保Pi一直站在技术的前沿。另外,Pi还整合了世界一流的实时网络搜索功能,以确保用户能够获得高质量的突发新闻和最新资讯。
Inflection-1 训练使用的 FLOP 约为 GPT-4 的 4%,在各种「IQ 导向」型任务中,其平均性能约为 GPT-4 水平的 72%。现在,Inflection-2.5 尽管只使用 GPT-4 40% 的 FLOP 来进行训练,但其平均性能却达到了 GPT-4 的 94% 以上。如下图所示,Inflection-2.5 的性能取得了全面的显著提升,其中 STEM 领域知识的改进最大。

Inflection-2.5 在两项不同 STEM 考试 —— 匈牙利数学考试、物理学研究生入学考试(GRE)—— 的成绩如下:

如下表所示,该研究还在 MMLU 基准、GPQA Diamond 基准上评估了 Inflection-2.5。MMLU 基准涵盖 STEM、人文、社会科学等领域的 57 个学科,能够有效地测试 LLM 的综合知识能力,而 GPQA Diamond 基准是一个极其困难的专家级基准。

在 BIG-Bench-Hard 基准上,Inflection-2.5 比 Inflection-1 性能提高了 10% 以上,并且可与 GPT-4 相媲美。BIG-Bench-Hard 基准主要涵盖大型语言模型难以解决的问题。

该研究还在 MT-Bench 基准上进行了评估。然而,研究团队意识到该基准在推理、数学和编码类别中有很大一部分(近 25%)的样本示例具有不正确的参考解决方案或前提有缺陷。因此,该研究更正了这些示例,并再次进行评估实验,结果如下表所示:

在 GSM8k 和 MATH 基准上的评估结果表明,Inflection-2.5 在数学和编码能力方面比 Inflection-1 有显著改进:

为了进一步测试 Inflection-2.5 的编码能力,该研究在 MBPP+ 和 HumanEval+ 两个编码基准上进行了评估实验,结果如下表所示:

研究团队在 HellaSwag 和 ARC-C、以及各种模型常识和科学基准上评估了 Inflection-2.5。从下图结果来看,Inflection-2.5 在这些基准上实现了强劲性能。

此外,以上所有评估都是使用现在支持 Pi 的模型完成的。但也需要注意,由于网络检索(以上基准没有使用网络检索)、few-shot 提示的结构以及其他生产方面的影响,用户体验可能略有差异。
总的来说,Inflection-2.5 保持了 Pi「走心」的特性和极高的安全标准,成为了一个更全面的有用模型。
最近一段时间,大语言模型的技术竞争进入了白热化阶段,在众多科技公司中,Mistral AI(Mistral Large)、Anthropic(Claude 3)脱颖而出,提出的新技术实现了与 GPT-4、Gemini Ultra 接近的能力。昨天出现的 Inflection-2.5,似乎也要加入第一梯队的行列。
作为硅谷明星创业公司,Inflection AI 的来头不小,它成立与 2025 年,三位联合创始人分别是原 DeepMind 联合创始人 Mustafa Suleyman、Linkedln 联合创始人 Reid Hoffman,还有前 DeepMind 首席科学家 Karen Simonyan。

去年 6 月,Inflection AI 宣布获得 13 亿美元融资,由微软、英伟达以及 Reid Hoffman、比尔・盖茨、谷歌前 CEO 埃里克・施密特领投。目前,Inflection AI 已成为全球第四大生成式 AI 创业公司。
以上就是挑战OpenAI的新模型免费上线,40%计算量性能逼近GPT-4的详细内容,更多请关注其它相关文章!
# 约为
# 抖音seo怎么做好
# 东营营销网络推广哪家好
# 佛山中英文网站推广服务
# 长治哪个网站建设可靠
# 营口seo公司案例分享
# 网站排名优化 必宙to斯方法
# 网站推广去哪报名培训呢
# 台山视频推广招聘网站
# 铜仁营销型网站建设
# 张家口网站推广选哪家店
# 中国
# 上海
# 模型
# 施密特
# 实现了
# 还在
# 下表
# 丰田
# 中国科学院
# 所示
# follow
# mistral ai
# claude
# gemini
# ai
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
360发布数字安全和人工智能的强大结合:360安全大模型
WHEE上线时间介绍
生活垃圾智能分类机器人社区展“才能”,征求居民意见
人工智能加速走进百姓生活:从2025全球人工智能技术大会看行业新趋势
联通发布鸿湖图文AI大模型1.0,可实现以文生图
应用生成式人工智能技术改善农业产业
AI智能室内效果图设计软件效果,确实惊到我了!
人工智能大胆预测:银河系至少有2万个地球,36种外星文明
联想创投携手12家被投企业MWC展示元宇宙、机器人等技术
特斯拉机器人面世 未来将大幅提振磁材需求,引领人工智能时代
Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
梦想实现!硬核科幻大片VR智能头盔即将问世
13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组
警惕!AI或致虚假信息泛滥
微软在德国举办MR研讨会,向女性分享元宇宙潜力
类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练
AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!
AIGC 风潮刮到游戏产业,巨人网络与阿里云达成“游戏 +AI ”合作
干货满满,2025昆山元宇宙国际装备展等你来打卡!
“踩油门,也要会踩刹车” 互联网企业高管谈人工智能发展
英伟达的AI领域垄断地位:一直无法撼动吗?
探索人工智能在居家养老方面的应用
中国移动副总经理高同庆:打造人工智能时代的智能服务运营新范式
“一般智力”与工艺学批判是认识AI的重要入口 | 社会科学报
在这里见未来!杭州未来科技城全球AI盛会邀您共探最前沿
人形机器人概念集体爆发,能买吗?
WHEE网页地址入口
Midjourney创始人:AI应该成为人类思想的延伸
构建AI绘画网站的方法:使用API接口和调用步骤
谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广
利亚德加码AI战略,与光年无限图灵机器人全面开展AI研发业务合作
SnapFusion技术大幅提升AI图像生成速度
小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学
华为发布两款AI存储新品
软通动力多项AI创新产品及应用亮相2025世界人工智能大会
AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑
阿里云AI绘画创作大模型通义万相发布 已开启定向邀测
时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体
英媒:硅谷有些人太鼓吹AI,宣扬“学习无用”
应对算力挑战,亚马逊云科技发力AI基础设施建设
周鸿祎参加中美青年科技创新峰会,分享人工智能创新机遇
基于信息论的校准技术,CML让多模态机器学习更可靠
美图秀秀发布7款AI产品:支持用户创作、商业创作
微软推出人工智能模型 CoDi,可互动和生成多模态内容
日入400万,第一批AI骗子已上岗
谷歌内部正在测试代号为Genesis的AI新闻写作产品
大模型新品出现井喷,AI产业迎来新时代
映宇宙集团执行总编辑:元宇宙还是要以人为媒介
阿里云推出通义万相AI绘画大模型
2024-03-08
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。