蚂蚁集团发布新算法,可加快大型模型推理速度2-6倍


近日,蚂蚁集团开源了一套新算法,可帮助大模型在推理时,提速2至6倍,引起业内关注。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

蚂蚁集团开源新算法,可助大模型推理提速2-6倍

图:新算法在不同开源大模型上的提速表现。

这套新算法名为Lookahead推理加速框架,能做到效果无损,即插即用,该算法已在蚂蚁大量场景进行了落地,大幅降低了推理耗时。

以Llama2-7B-chat模型和Dolly数据集为例,我们进行了实测,并发现token生成速度从48.2个/秒提升到112.9个/秒,提速了2.34倍。在蚂蚁内部的RAG(检索增强生成)数据集上,百灵大模型AntGLM 10B版本的加速比达到了5.36。与此同时,显存增加和内存消耗几乎可以忽略不计。

当前的大型模型通常基于自回归解码,每次只生成一个token。这种方式不仅浪费了GPU的并行处理能力,还导致用户体验延迟过高,影响了流畅度。为了改善这一问题,可以尝试采用并行解码方式,同时生成多个token,以提高效率和用户体验。

举个例子,原来的token生成过程可以比喻为早期中文输入法的方式,用户需要一个字一个字地敲击键盘来输入文字。然而,采用了蚂蚁的加速算法后,token生成的过程就像是现代联想输入法,可以通过联想功能直接蹦出整句话来。这样的改进大大提高了输入速度和效率。

SCISPACE SCISPACE

AI论文研究助手,探索和解释论文的平台

SCISPACE 65 查看详情 SCISPACE

业内此前已经涌现了一些优化算法,主要关注于生成更优质的草稿(即猜测生成token序列)的方法。然而,经过实践验证,一旦草稿的长度超过30个token,端到端推理的效率就无法再进一步提高。很明显,这个长度并没有充分发挥GPU的计算能力。

为了进一步提升硬件性能,蚂蚁Lookahead推理加速算法采用了多分支的策略。这意味着草稿序列不再只有一条分支,而是包含多条并行的分支,这些分支可以同时进行验证。这样一来,在保持前向过程的耗时基本不变的情况下,可以增加一次前向过程生成的token个数。

蚂蚁Lookahead推理加速算法通过利用trie树存储和检索token序列,以及合并多条草稿中相同的父节点,进一步提高了计算效率。为了提高易用性,该算法的trie树构建不依赖额外的草稿模型,而是只利用推理过程中的prompt和生成的回答进行动态构建,从而降低了用户的接入成本。

该算法现已在GitHub上开源(https://www.php.cn/link/51200d29d1fc15f5a71c1dab4bb54f7c),相关论文公布在ARXIV(https://www.php.cn/link/24a29a235c0678859695b10896513b3d)。

公开信息显示,蚂蚁集团基于丰富的业务场景需求,在人工智能方向持续投入,布局了包括大模型、知识图谱、运筹优化、图学习、可信AI等技术领域。

以上就是蚂蚁集团发布新算法,可加快大型模型推理速度2-6倍的详细内容,更多请关注其它相关文章!


# 进行了  # 包菜网站建设  # 婚恋服务营销推广资讯  # 上海定制网站优化排名  # 襄阳营销推广公司  # 化龙seo网站哪家便宜  # 本溪营销网站优化公司  # 中原网络视频营销推广  # 西藏产品推广营销  # 网站运营海外营销推广  # seo的描述分类  # 卖得  # 产业  # 多条  # 中国  # 进一步提高  # 一个字  # 采用了  # 丰田  # 本田  # 开源  # looka  # follow  # llama 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 比尔盖茨:AI确实存在风险,但可控  联通发布鸿湖图文AI大模型1.0,可实现以文生图  物联网“僵尸网络DDos攻击”增长惊人,威胁全球电信网络  亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资  微软推出 LLaVA-Med AI 模型,可对医学病理案例进行分析  NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉  美图开拍使用教程  全新升级的广州麦当劳:面积最大餐厅正式引入智慧机器人  联想首发AI PC于今年秋季,英特尔CEO确认AI PC时代来临  大疆 Air 3 无人机售价和实物照片曝光  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  OpenAI 向所有付费 API 用户开放 GPT-4  华为余承东表示:鸿蒙可能拥有强大的人工智能大模型能力  小米又拿下国际比赛第一:AI翻译立功  AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!  万兴播爆桌面端上线,支持AI数字人搜索、视频编辑等功能  海南科技职业大学第25届中国机器人及人工智能大赛海南赛区荣获一等奖等114项  微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测  Vision Pro 太贵,苹果基于 iPhone 的 VR 头显专利曝光  一文看懂基础模型的定义和工作原理  烟台大学学生首次在全国大学生无人机航拍竞赛中获奖  谷歌计划在上海举办开发者大会,重点关注机器学习和生成式AI领域  13万个注释神经元,5300万个突触,普林斯顿大学等发布首个完整「成年果蝇」大脑连接组  AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地  尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元  讯飞星火大模型实现升级 助力通用人工智能人才培养  AI进军债券交易,BondGPT来了!  站在社会的高度理解人工智能  杭州举办第19届亚运会,主题为「亚运元宇宙」的发布仪式举行  腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果  焊接协作机器人或将成为26届埃森展最大看点  【搞事】时隔4年 谷歌更新安卓logo 机器人头更饱满了  IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步  清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!  让AI助手带您轻松愉快地享受写作之旅  时隔 4 年:谷歌更新安卓机器人 LOGO,形象更立体  网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手  开创全新虚拟现实体验的Pimax Crystal VR头显  一次购买全年省心,入手科沃斯这几台机器人,省下时间就是金钱  全媒封面丨⑤商汤科技:原创AI算法“发电厂”  美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验  为AI而服务设计:构建以人为本的AI创新方法  原小米 9 号员工李明打造全球首款 AI 安卓桌面机器人  马斯克回应人工智能拯救世界:人类已处于“半机器人”状态  华为AI大模型将融入HarmonyOS 4  食品分销跨国企业Sysco CIDO:我们的增长秘诀是以IT为中心  传字节内测对话式 AI 产品,代号「Grace」;马斯克嘲讽苹果 头显;比亚迪 F 品牌定名「方程豹」  飒智智能机器人核心技术与应用论坛暨一体化控制器发布会成功举办  以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%  “智能体动作生成技术”现身WAIC:游戏AI技术为机器人科创注入新动力 

 2024-01-17

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.