首页 > 营销学院 > IT资讯

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

大语言模型（LLM）被越来越多应用于各种领域。然而，它们的文本生成过程既昂贵又缓慢。这种低效率归因于自回归解码的运算规则：每个词（token）的生成都需要进行一次前向传播，需要访问数十亿至数千亿参数的 LLM。这导致传统自回归解码的速度较慢。

近日，滑铁卢大学、加拿大向量研究院、北京大学等机构联合发布 EAGLE，旨在提升大语言模型的推理速度，同时保证模型输出文本的分布一致。这种方法外推 LLM 的第二顶层特征向量，能够显著提升生成效率。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布eagle

技术报告：https://sites.google.com/view/eagle-llm
代码（支持商用 Apache 2.0）：https://github.com/SafeAILab/EAGLE

EAGLE 具有以下特点：

比普通自回归解码（13B）快 3 倍；
比 Lookahead 解码（13B）快 2 倍；
比 Medusa 解码（13B）快 1.6 倍；
可以证明在生成文本的分布上与普通解码保持一致；
可以在 RTX 3090 上进行训练（1-2 天内）和测试；
可以与 vLLM、DeepSpeed、Mamba、FlashAttention、量化和硬件优化等其他平行技术结合使用。

加速自回归解码的一种方法是投机采样（speculative sampling）。这种技术使用一个更小的草稿模型，通过标准自回归生成来猜测接下来的多个词。随后，原始 LLM 并行验证这些猜测的词（只需要进行一次前向传播进行验证）。如果草稿模型准确预测了 α 词，原始 LLM 的一次前向传播就可以生成 α+1 个词。

在投机采样中，草稿模型的任务是基于当前词序列预测下一个词。使用一个参数数量显著更少的模型完成这个任务极具挑战性，通常会产生次优结果。此外，标准投机采样方法中的草稿模型独立预测下一个词而不利用原始 LLM 提取的丰富语义信息，导致潜在的效率低下。

这个局限启发了 EAGLE 的开发。EAGLE 利用原始 LLM 提取的上下文特征（即模型第二顶层输出的特征向量）。EAGLE 建立在以下第一性原理之上：

特征向量序列是可压缩的，所以根据前面的特征向量预测后续特征向量比较容易。

EAGLE 训练了一个轻量级插件，称为自回归头（Auto-regression Head），与词嵌入层一起，基于当前特征序列从原始模型的第二顶层预测下一个特征。然后使用原始 LLM 的冻结分类头来预测下一个词。特征比词序列包含更多信息，使得回归特征的任务比预测词的任务简单得多。总之，EAGLE 在特征层面上进行外推，使用一个小型自回归头，然后利用冻结的分类头生成预测的词序列。与投机采样、Medusa 和 Lookahead 等类似的工作一致，EAGLE 关注的是每次提示推理的延迟，而不是整体系统吞吐量。

EAGLE——一种增强大语言模型生成效率的方法

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

上图显示了 EAGLE 与标准投机采样、Medusa 以及 Lookahead 关于输入输出的区别。下图展示了 EAGLE 的工作流程。在原始 LLM 的前向过程中，EAGLE 从第二顶层收集特征。自回归头以这些特征以及此前生成的词的词嵌入作为输入，开始猜下一个词。随后，使用冻结的分类头（LM Head）确定下一个词的分布，使 EAGLE 能够从这个分布中进行采样。通过多次重复采样，EAGLE 进行了类似树状的生成过程，如下图右侧所示。在这个例子中，EAGLE 的三次前向传播 “猜” 出了 10 个词组成的树。

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

EAGLE 使用轻量级的自回归头来预测原始 LLM 的特征。为了确保生成文本分布的一致性，EAGLE 随后验证预测的树状结构。这个验证过程可以使用一次前向传播完成。通过这个预测和验证的循环，EAGLE 能够快速生成文本词。

训练自回归头代价很小。EAGLE 使用 ShareGPT 数据集进行训练，该数据集包含不到 70,000 轮对话。自回归头的可训练参数数量也很少。如上图中的蓝色部分所示，大多数组件都是冻结的。唯一要额外训练的是自回归头，这是一个单层 Transformer 结构，具有 0.24B-0.99B 参数。即使是 GPU 资源不足的情况下，也可以训练自回归头。例如，Vicuna 33B 的自回归头可以在 8 卡 RTX 3090 服务器上在 24 小时内完成训练。

为什么使用词嵌入来预测特征？

Medusa 仅使用第二顶层的特征来预测下一个词，下下个词......与 Medusa 不同，EAGLE 还动态地将当前采样得到的词嵌入作为自回归头输入的一部分来进行预测。这额外的信息帮助 EAGLE 处理抽样过程中不可避免的随机性。考虑下图中的例子，假设提示词是 “I”。LLM 给出了 “I” 后面跟着 “am” 或 “always” 的概率。Medusa 不考虑是抽样了 “am” 还是 “always”，直接预测 “I” 下下个词的概率。因此，Medusa 的目标是，在只给定 “I” 的基础上，预测 “I am” 或 “I always” 的下一个词。由于抽样过程的随机性，Medusa 的相同输入 “I” 可能有不同的下下个词输出 “ready” 或 “begin”，导致输入和输出之间缺乏一致的映射。相比之下，EAGLE 的输入包括了抽样结果的词嵌入，确保了输入和输出之间的一致映射。这种区别使 EAGLE 能够考虑抽样过程建立的上下文，进而更准确地预测后续词。

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

树状生成结构

与投机采样、Lookahead 和 Medusa 等其他猜测 - 验证框架不同，EAGLE 在 “猜词” 阶段采用类似树状的生成结构，进而实现了更高的解码效率。如图所示，标准投机采样和 Lookahead 的生成过程是线性或链式的。Medusa 的方法由于在猜测阶段无法构建上下文，故通过笛卡尔积生成树，导致相邻层之间形*连接图。这种方法经常导致无意义的组合，例如 “I am begin”。对比之下，EAGLE 创建了一个更稀疏的树结构。这种稀疏的树结构防止形成无意义的序列，将计算资源集中在更合理的词组合上。

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

码上飞

码上飞（CodeFlying）是一款AI自动化开发平台，通过自然语言描述即可自动生成完整应用程序。

430 查看详情码上飞

多轮投机采样

标准投机采样方法在进行 “猜词” 的过程中保持了分布的一致性。为了适应树状猜词场景，EAGLE 将这种方法扩展成了多轮递归形式。下面呈现了多轮投机采样的伪代码。在树状生成过程中，EAGLE 记录了每个抽样词对应的概率。通过多轮投机采样，

EAGLE 确保最终生成的每个词的分布与原始 LLM 的分布保持一致。

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

更多实验结果

下图展示了 EAGLE 在 Vicuna 33B 上关于不同任务中的加速效果。涉及大量固定模板的 “编程”（coding）任务显示出最佳的加速性能。

大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE

欢迎大家体验 EAGLE，并通过 GitHub issue 反馈建议：https://github.com/SafeAILab/EAGLE/issues

以上就是大模型推理效率无损提升3倍，滑铁卢大学、北京大学等机构发布EAGLE的详细内容，更多请关注其它相关文章！

# eagle # 出了 # 丰田 # 下个 # 的是 # 过程中 # 前向 # 递归 # 树状 # 北京大学 # type # looka # follow # apache # git # 产业 # 滑铁卢 # 三门峡网站外包优化方案 # 酒店网站推广怎么做的 # 网站seo优化论坛 # 城口个人网站建设 # seo推广简历范文 # 付费做seo划算么 # 无锡整合营销推广怎么样 # 南昌县营销推广公司招聘 # 欧美网站建设教程 # 网站目录优化方案模板

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-07-11

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。