MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理


MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文第一作者肖光烜是麻省理工学院电子工程与计算机科学系(mit eecs)的三年级博士生,师从韩松教授,研究方向为深度学习加速,尤其是大型语言模型(llm)的加速算法设计。他在清华大学计算机科学与技术系获得本科学位。他的研究工作广受关注,github上的项目累计获得超过9000颗星,并对业界产生了重要影响。他的主要贡献包括smoothquant和streamingllm,这些技术和理念已被广泛应用,集成到nvidia tensorrt-llm、huggingface及intel neural compressor等平台中。本文的指导老师为韩松教授(https://songhan.mit.edu/)

TL;DR:DuoAttention 通过将大语言模型的注意力头分为检索头(Retrieval Heads,需要完整 KV 缓存)和流式头(Streaming Heads,只需固定量 KV 缓存),大幅提升了长上下文推理的效率,显著减少内存消耗、同时提高解码(Decoding)和预填充(Pre-filling)速度,同时在长短上下文任务中保持了准确率。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

  • 论文链接:https://arxiv.org/abs/2410.10819
  • 项目主页及代码:https://github.com/mit-han-lab/duo-attention

单 GPU 实现 330 万 Token 上下文推理演示视频:MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
随着大语言模型(Large Language Models,LLMs)在各类任务中的广泛应用,尤其是在长上下文(Long-Context)场景中处理海量文本信息,如何在保证模型性能的同时减少内存和计算成本,成为了一个亟待解决的难题。为此,来自 MIT、清华大学、上海交通大学、爱丁堡大学和 NVIDIA 的研究团队联合提出了 DuoAttention 框架。这项创新技术通过对大语言模型的注意力机制(Attention Mechanism)进行精细化设计,极大提高了长上下文推理的效率,并大幅降低了内存需求,在不牺牲模型准确性的前提下,推动了 LLM 在长上下文任务中的发展。
 
研究背景:长上下文处理的挑战

现代大语言模型(如 Llama、GPT 等)在多轮对话、长文档摘要、视频和视觉信息理解等任务中需要处理大量历史信息,这些任务往往涉及数十万甚至上百万个 token 的上下文信息。例如,处理一篇小说、法律文档或视频转录内容,可能需要分析百万级别的 token。然而,传统的全注意力机制(Full Attention)要求模型中的每个 token 都要关注序列中的所有前序 token,这导致了解码时间线性增加,预填充(Pre-Filling)时间呈二次增长,同时,KV 缓存(Key-Value Cache)的内存消耗也随着上下文长度成线性增长。当上下文达到数百万 token 时,模型的计算负担和内存消耗将达到难以承受的地步。

DuoAttention 的创新设计

针对这一问题,DuoAttention 框架提出了创新性的 “检索头(Retrieval Heads)” 与 “流式头(Streaming Heads)” 的分离方法。这一设计的核心理念是:并非所有的注意力头(Attention Heads)在处理长上下文时都需要保留完整的 KV 缓存。研究团队通过大量实验发现,在长上下文推理任务中,只有一小部分注意力头,即 “检索头”,需要对全部 token 进行关注,以获取上下文中的关键信息。而大多数注意力头,即 “流式头”,只需关注最近的 token 和注意力汇点(Attention Sinks),不需要存储全部的历史 KV 状态。

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

图 1 展示了在 Llama-2-7B 模型上使用全注意力机制的注意力图(Attention Maps)。从图中可以看到,检索头(Retrieval Heads)捕获了上下文中如 "best"、"fruit" 和 "orange" 等关键信息,这些信息对于处理长上下文至关重要,因而需要完整的 KV 缓存。而流式头(Streaming Heads)则主要关注最近的 token 和注意力汇点,不需要保留所有历史信息。

DuoAttention 的工作原理
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
                               图 2 说明了 DuoAttention 的基本工作原理。

框架通过以下几种关键机制来优化推理过程:

  • 检索头的 KV 缓存优化:DuoAttention 为检索头保留完整的 KV 缓存,这些头对长距离依赖信息的捕捉至关重要。如果对这些头的 KV 缓存进行剪裁,将导致模型性能严重下降。因此,检索头需要对上下文中的所有 token 保持 “全注意力(Full Attention)”。
  • 流式头的轻量化 KV 缓存:流式头则主要关注最近的 token 和注意力汇点。这意味着它们只需要一个固定长度的 KV 缓存(Constant-Length KV Cache),从而减少了 KV 缓存对内存的需求。通过这种方式,DuoAttention 能够以较低的计算和内存代价处理长序列,而不会影响模型的推理能力。

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

  • 检索头的自动识别:为了准确区分哪些头是检索头,DuoAttention 提出了一种轻量化的优化算法,使用合成数据集来训练模型自动识别重要的检索头。这种优化策略通过密码召回任务(Passkey Retrieval),确定哪些注意力头在保留或丢弃 KV 缓存后对模型输出有显著影响。最终,DuoAttention 在推理时根据这一识别结果,为检索头和流式头分别分配不同的 KV 缓存策略。

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

Remover Remover

几秒钟去除图中不需要的元素

Remover 304 查看详情 Remover
                              图 3 展示了 DuoAttention 使用的合成数据集中的一个样例。图 4 展示了 DuoAttention 最终确定 LLM 中各个注意力头的类别。

性能与准确率实验

为了验证 DuoAttention 框架的有效性,研究团队在多种主流 LLM 架构上进行了广泛的实验评估,包括 Llama-2、Llama-3 和 Mistral 模型。实验不仅测试了 DuoAttention 在内存与计算效率上的提升,还通过长上下文和短上下文任务对模型的准确率进行了全面测试。

1.长上下文任务的评估:在 Needle-in-a-Haystack(NIAH)基准测试中,DuoAttention 在极深的上下文条件下表现卓越,保持了高精度,并在处理 1048K 个 token 的长上下文时,依然能够保持稳定的准确率,而其他方法由于丢失关键信息导致性能下降显著。在 14 个 LongBench 基准测试中,DuoAttention 展现了在不同任务下的强大泛化能力,能够以较低的 KV 缓存预算,提供接近全注意力机制的准确性。在多头注意力模型(MHA)上,DuoAttention 使用 25% 的 KV 缓存预算即可在多数任务中取得与全缓存相当的效果,而在分组查询注意力模型(GQA)上,50% 的 KV 缓存预算即可维持高精度表现。

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

2.短上下文任务的评估:在 MMLU(多项选择题)、MBPP(编程能力)和 MT-Bench(帮助能力)等短上下文基准上,DuoAttention 也表现出色。在使用 50% 流式头的情况下,DuoAttention 的表现几乎与全注意力机制一致,保持了 LLM 在短文本任务上的原始能力。例如,在 MMLU 基准上,DuoAttention 仅以 0.03% 的差距(79.35% 对比 79.38%)实现了与全注意力机制的相近性能。
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
内存与效率的提升

  • 内存消耗显著降低:DuoAttention 在多头注意力模型(Multi-Head Attention,MHA)上将内存消耗减少了 2.55 倍,在分组查询注意力模型(Grouped-Query Attention,GQA)上减少了 1.67 倍。这是由于对流式头采用了轻量化的 KV 缓存策略,使得即使在处理百万级别的上下文时,模型的内存占用依然保持在较低水平。
  • 解码(Decoding)和预填充(Pre-Filling)速度提升:DuoAttention 的解码速度在 MHA 模型中提升了 2.18 倍,在 GQA 模型中提升了 1.50 倍。在预填充方面,MHA 和 GQA 模型的速度分别加快了 1.73 倍 1.63 倍,有效减少了长上下文处理中的预填充时间。

MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

  • 百万级 token 处理能力:结合 4 比特量化(Quantization)技术, DuoAttention 实现 Llama-3-8B 在单个 A100 GPU 上处理高达 330 万 token 的上下文,这一结果是标准全注意力机制的 6.4 倍。 
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
应用场景与未来展望

DuoAttention 框架为处理长上下文的应用场景带来了巨大的变革,特别是在需要大规模上下文处理的任务中表现突出,包括:

  • 多轮对话系统(Multi-Turn Dialogues):DuoAttention 使对话模型能够高效处理长时间对话记录,从而更好地理解用户上下文,提升交互体验。
  • 长文档处理与摘要生成:在文档分析、法律文本处理、书籍摘要等任务中,DuoAttention 极大减少内存占用,同时保持高精度,使长文档处理更加可行。
  • 视觉与视频理解:在涉及大量帧的上下文信息处理的视觉和视频任务中,DuoAttention 为视觉语言模型(Visual Language Models,VLMs)提供了高效推理方案,显著提升了处理速度。

研究团队期望 DuoAttention 框架能够继续推动 LLM 在长上下文处理领域的发展,并为更多实际应用场景带来显著提升。

以上就是MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理的详细内容,更多请关注其它相关文章!


# 是在  # 济源天眼关键词排名  # 漯河关键词优化排名推广  # 网站导航条优化  # seo做淘宝客推广方案  # 南平市网站优化与推广  # 广东手机网站建设代理商  # 云南视频网站优化代理  # 网站推广被罚多少钱一次  # 深圳高端响应式网站建设  # 东莞seo自然排名  # 只需  # 减少了  # 清华大学  # 工程  # 较低  # 文档  # 提出了  # 不需要  # 这一  # 流式  # type  # follow  # llama  # 内存占用  # 邮箱  # ai  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景  揭秘AI数字人语录:抖音AI小和尚、老者语录能赚钱吗?  机构研选 | 虚拟电厂是电力物联网升级版 智能电网望迎来高速发展  亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资  Adobe旗下Illustrator引入生成式AI工具Firefly  警惕!AI或致虚假信息泛滥  掌阅科技对话式AI应用“阅爱聊”开启内测  微幼科技晨检机器人与人工晨检相比,有何优势  AI大模型紫东太初已被注册商标 中科院已注册紫东太初大模型商标  兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机  Unity 内测 Safe Voice 服务,利用 AI 自动识别玩家不当聊天内容  映宇宙集团执行总编辑:元宇宙还是要以人为媒介  移远通信率先完成多场5G NTN技术外场验证,为卫星物联网应用落地提速  一图速览 | 十大脑机接口关键技术发布  关于开展“与AI共创未来”——2025年全国青少年人工智能创新实践活动的通知  加州用AI监测野火:1032个摄像头联网扫描森林异常  Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务  学而思网校推出首个基于自研大模型的《人工智能第一课》  不到2S创作AI图像!Snap发布图像生成器SnapFusion  插画师对AI绘画软件的态度是怎样的?  苹果AR头显商标与华为撞车,在中国或改名  好莱坞面临全面停摆 好莱坞大罢工抵制“AI入侵”  长宁这家企业在世界人工智能大会上荣获“蓝鼎奖”  会模仿笔迹的AI,为你创造专属字体  曝索尼在开发新头显设备:游戏中使用AR技术  华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会  借助ChatGPT快速上手ElasticSearch dsl  世界人工智能大会|“AI领航,共筑未来”高端保险论坛成功举办  日入400万,第一批AI骗子已上岗  “可用”“有用”的讯飞星火认知大模型将亮相世界人工智能大会  人工智能在服务优化方面优缺点有哪些  纪录片 《寻找人工智能》全集1080P超清  “技术+实践+生态”三箭齐发,京东方抢占物联网高地  清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳  美图吴欣鸿:希望更多人用上AI时代的影像生产力工具  能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高  OpenAI 引入个性化指令功能,消除对话中的重复偏好与信息  机器人加速!稀土永磁也被带火,持续性如何?  AI智能室内效果图设计软件效果,确实惊到我了!  Meta发布语音AI模型 Voicebox 助虚拟助手与NPC对话  美图影像节演讲实录:191次提及AI,发布7款影像生产力工具  张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域  构建数字文旅新高地!洛阳涧西区开启元宇宙时代  深企派遣无人机救援队赴京津冀开展防汛救灾任务  Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam  2025VR&AR显示技术峰会视频解析: 歌尔光学展示最新一代VR/AR光学模组  稿见AI助手:提升写作效率与质量的必备工具  再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手  30+大模型齐聚,大模型成世界人工智能大会“顶流”  基于信息论的校准技术,CML让多模态机器学习更可靠 

 2024-10-24

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.