大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE


大语言模型(LLM)被越来越多应用于各种领域。然而,它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则:每个词(token)的生成都需要进行一次前向传播,需要访问数十亿至数千亿参数的 LLM。这导致传统自回归解码的速度较慢。

近日,滑铁卢大学、加拿大向量研究院、北京大学等机构联合发布 EAGLE,旨在提升大语言模型的推理速度,同时保证模型输出文本的分布一致。这种方法外推 LLM 的第二顶层特征向量,能够显著提升生成效率。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布eagle

  • 技术报告:https://sites.google.com/view/eagle-llm
  • 代码(支持商用 Apache 2.0):https://github.com/SafeAILab/EAGLE

EAGLE 具有以下特点:

  • 比普通自回归解码(13B)快 3 倍;
  • 比 Lookahead 解码(13B)快 2 倍;
  • 比 Medusa 解码(13B)快 1.6 倍;
  • 可以证明在生成文本的分布上与普通解码保持一致;
  • 可以在 RTX 3090 上进行训练(1-2 天内)和测试;
  • 可以与 vLLM、DeepSpeed、Mamba、FlashAttention、量化和硬件优化等其他平行技术结合使用。
大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE
加速自回归解码的一种方法是投机采样(speculative sampling)。这种技术使用一个更小的草稿模型,通过标准自回归生成来猜测接下来的多个词。随后,原始 LLM 并行验证这些猜测的词(只需要进行一次前向传播进行验证)。如果草稿模型准确预测了 α 词,原始 LLM 的一次前向传播就可以生成 α+1 个词。

在投机采样中,草稿模型的任务是基于当前词序列预测下一个词。使用一个参数数量显著更少的模型完成这个任务极具挑战性,通常会产生次优结果。此外,标准投机采样方法中的草稿模型独立预测下一个词而不利用原始 LLM 提取的丰富语义信息,导致潜在的效率低下。

这个局限启发了 EAGLE 的开发。EAGLE 利用原始 LLM 提取的上下文特征(即模型第二顶层输出的特征向量)。EAGLE 建立在以下第一性原理之上:

特征向量序列是可压缩的,所以根据前面的特征向量预测后续特征向量比较容易。

EAGLE 训练了一个轻量级插件,称为自回归头(Auto-regression Head),与词嵌入层一起,基于当前特征序列从原始模型的第二顶层预测下一个特征。然后使用原始 LLM 的冻结分类头来预测下一个词。特征比词序列包含更多信息,使得回归特征的任务比预测词的任务简单得多。总之,EAGLE 在特征层面上进行外推,使用一个小型自回归头,然后利用冻结的分类头生成预测的词序列。与投机采样、Medusa 和 Lookahead 等类似的工作一致,EAGLE 关注的是每次提示推理的延迟,而不是整体系统吞吐量。

EAGLE——一种增强大语言模型生成效率的方法

大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE

上图显示了 EAGLE 与标准投机采样、Medusa 以及 Lookahead 关于输入输出的区别。下图展示了 EAGLE 的工作流程。在原始 LLM 的前向过程中,EAGLE 从第二顶层收集特征。自回归头以这些特征以及此前生成的词的词嵌入作为输入,开始猜下一个词。随后,使用冻结的分类头(LM Head)确定下一个词的分布,使 EAGLE 能够从这个分布中进行采样。通过多次重复采样,EAGLE 进行了类似树状的生成过程,如下图右侧所示。在这个例子中,EAGLE 的三次前向传播 “猜” 出了 10 个词组成的树。

大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE

EAGLE 使用轻量级的自回归头来预测原始 LLM 的特征。为了确保生成文本分布的一致性,EAGLE 随后验证预测的树状结构。这个验证过程可以使用一次前向传播完成。通过这个预测和验证的循环,EAGLE 能够快速生成文本词。

训练自回归头代价很小。EAGLE 使用 ShareGPT 数据集进行训练,该数据集包含不到 70,000 轮对话。自回归头的可训练参数数量也很少。如上图中的蓝色部分所示,大多数组件都是冻结的。唯一要额外训练的是自回归头,这是一个单层 Transformer 结构,具有 0.24B-0.99B 参数。即使是 GPU 资源不足的情况下,也可以训练自回归头。例如,Vicuna 33B 的自回归头可以在 8 卡 RTX 3090 服务器上在 24 小时内完成训练。

为什么使用词嵌入来预测特征?

Medusa 仅使用第二顶层的特征来预测下一个词,下下个词......与 Medusa 不同,EAGLE 还动态地将当前采样得到的词嵌入作为自回归头输入的一部分来进行预测。这额外的信息帮助 EAGLE 处理抽样过程中不可避免的随机性。考虑下图中的例子,假设提示词是 “I”。LLM 给出了 “I” 后面跟着 “am” 或 “always” 的概率。Medusa 不考虑是抽样了 “am” 还是 “always”,直接预测 “I” 下下个词的概率。因此,Medusa 的目标是,在只给定 “I” 的基础上,预测 “I am” 或 “I always” 的下一个词。由于抽样过程的随机性,Medusa 的相同输入 “I” 可能有不同的下下个词输出 “ready” 或 “begin”,导致输入和输出之间缺乏一致的映射。相比之下,EAGLE 的输入包括了抽样结果的词嵌入,确保了输入和输出之间的一致映射。这种区别使 EAGLE 能够考虑抽样过程建立的上下文,进而更准确地预测后续词。

大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE

树状生成结构

与投机采样、Lookahead 和 Medusa 等其他猜测 - 验证框架不同,EAGLE 在 “猜词” 阶段采用类似树状的生成结构,进而实现了更高的解码效率。如图所示,标准投机采样和 Lookahead 的生成过程是线性或链式的。Medusa 的方法由于在猜测阶段无法构建上下文,故通过笛卡尔积生成树,导致相邻层之间形*连接图。这种方法经常导致无意义的组合,例如 “I am begin”。对比之下,EAGLE 创建了一个更稀疏的树结构。这种稀疏的树结构防止形成无意义的序列,将计算资源集中在更合理的词组合上。

大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE

码上飞 码上飞

码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。

码上飞 430 查看详情 码上飞
多轮投机采样

标准投机采样方法在进行 “猜词” 的过程中保持了分布的一致性。为了适应树状猜词场景,EAGLE 将这种方法扩展成了多轮递归形式。下面呈现了多轮投机采样的伪代码。在树状生成过程中,EAGLE 记录了每个抽样词对应的概率。通过多轮投机采样,EAGLE 确保最终生成的每个词的分布与原始 LLM 的分布保持一致。

大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE

更多实验结果

下图展示了 EAGLE 在 Vicuna 33B 上关于不同任务中的加速效果。涉及大量固定模板的 “编程”(coding)任务显示出最佳的加速性能。

大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE

欢迎大家体验 EAGLE,并通过 GitHub issue 反馈建议:https://github.com/SafeAILab/EAGLE/issues

以上就是大模型推理效率无损提升3倍,滑铁卢大学、北京大学等机构发布EAGLE的详细内容,更多请关注其它相关文章!


# eagle  # 出了  # 丰田  # 下个  # 的是  # 过程中  # 前向  # 递归  # 树状  # 北京大学  # type  # looka  # follow  # apache  # git  # 产业  # 滑铁卢  # 三门峡网站外包优化方案  # 酒店网站推广怎么做的  # 网站seo优化论坛  # 城口个人网站建设  # seo推广简历范文  # 付费做seo划算么  # 无锡整合营销推广怎么样  # 南昌县营销推广公司招聘  # 欧美网站建设教程  # 网站目录优化方案模板 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸  阿里达摩院发布免费开放100项AI专利许可的动机是什么?  智能技术提高现代商业运营的7七种方式  东软成立魔形科技研究院,积极布局大语言模型系统工程战略,迎接AI时代  《爱康未来之夜嘉宾官宣,携手共赴AI未来》  AI智能室内效果图设计软件效果,确实惊到我了!  昇腾AI & 讯飞星火:深度联手,共话国产大模型“大未来”  小艺主导智慧交互升级,借助AI大模型增强能力  研究预测HPC支持的人工智能增长迅速  “五年内人类程序员将消失”预言引争议,AI真的那么强大了吗?  30+大模型齐聚,大模型成世界人工智能大会“顶流”  OpenAI更新GPT-4等模型,新增API函数调用,价格最高降75%  如布科技发布新产品AI口袋学习机S12  GPT-4成功战胜AI-Guardian审核系统:谷歌研究团队的人工智能抵抗人工智能  华为昇腾AI原生支持30多种基础大模型,包括GPT  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍  WHEE功能介绍  全面拥抱大模型浪潮,ISC 2025打造全球首场AI数字安全峰会  携程发布旅游行业垂直大模型 梁建章:AI策略是做可靠的内容 放心的推荐  周星驰支持的人工智能与 Web3 初创公司 Moonbox 完成 100 万美元融资  AI大模型,将为智慧城市带来哪些新变化?  “长沙造”无人机,领先的不止植保  DreamAvatar数字人使用教程  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能  英国前首相:AI可能被用来制造“生物恐怖武器”  pixivFANBOX 更新运营规则,禁止通过外链绕开 AI 生成禁令  特斯拉人形机器人将亮相 预计售价不超过15万元  美图影像节演讲实录:191次提及AI,发布7款影像生产力工具  如何成功实施人工智能?  Meta 发布 Voicebox AI 模型:可生成音频信息,用于 NPC 对话等  报道称亚马逊正在测试AI生成产品评价摘要  张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域  Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%  AIGC 风潮刮到游戏产业,巨人网络与阿里云达成“游戏 +AI ”合作  MetaGPT开源框架爆红 GitHub,达到1.1万星,模拟软件开发流程  2025 世界人工智能大会闭幕,32 个重大产业签约总额达 288 亿元  金山办公宣布与英伟达团队合作,加速WPS AI服务  DeepMind推惊世排序算法,C++库忙更新!  微软在 Build 大会上宣布的新 Microsoft Store AI Hub 现已开始推出  人工智能快速发展 打开就业新空间  RoboNeo安装教程  OpenAI CEO 山姆・阿尔特曼呼吁 AI 领域中美应当合作  Xreal AR 眼镜用投屏盒子 Beam 发布:分体式设计,到手 699 元  DragGAN开源三天Star量23k,这又来一个DragDiffusion  大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务  如何用户外电源给无人机实现持久续航  技术如何使人变得懒惰?  江永:精准施训提升通信无人机应急救援能力 

 2024-07-11

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.