微软新出热乎论文:Transformer扩展到10亿token


当大家不断升级迭代自家大模型的时候,LLM(大语言模型)对上下文窗口的处理能力,也成为一个重要评估指标。

比如明星大模型 GPT-4 支持 32k token,相当于 50 页的文字;OpenAI 前成员创立的 Anthropic 更是将 Claude 处理 token 能力提升到 100k,约 75000 个单词,大概相当于一键总结《哈利波特》第一部。

在微软最新的一项研究中,他们这次直接将 Transformer 扩展到 10 亿 token。这为建模非常长的序列开辟了新的可能性,例如将整个语料库甚至整个互联网视为一个序列。

作为比较,普通人可以在 5 小时左右的时间里阅读 100,000 个 token,并可能需要更长的时间来消化、记忆和分析这些信息。Claude 可以在不到 1 分钟的时间里完成这些。要是换算成微软的这项研究,将会是一个惊人的数字。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

微软新出热乎论文:Transformer扩展到10亿token图片

  • 论文地址:https://arxiv.org/pdf/2307.02486.pdf
  • 项目地址:https://github.com/microsoft/unilm/tree/master

具体而言,该研究提出了 LONGNET,这是一种 Transformer 变体,可以将序列长度扩展到超过 10 亿个 token,而不会牺牲对较短序列的性能。文中还提出了 dilated attention,它能指数级扩展模型感知范围。

LONGNET 具有以下优势:

1)它具有线性计算复杂性;

2)它可以作为较长序列的分布式训练器;

3)dilated attention 可以无缝替代标准注意力,并可以与现有基于 Transformer 的优化方法无缝集成。

实验结果表明,LONGNET 在长序列建模和一般语言任务上都表现出很强的性能。

在研究动机方面,论文表示,最近几年,扩展神经网络已经成为一种趋势,许多性能良好的网络被研究出来。在这当中,序列长度作为神经网络的一部分,理想情况下,其长度应该是无限的。但现实却往往相反,因而打破序列长度的限制将会带来显著的优势:

  • 首先,它为模型提供了大容量的记忆和感受野,使其能够与人类和世界进行有效的交互。
  • 其次,更长的上下文包含了更复杂的因果关系和推理路径,模型可以在训练数据中加以利用。相反,较短的依赖关系则会引入更多虚假的相关性,不利于模型的泛化性。
  • 第三,更长的序列长度可以帮助模型探索更长的上下文,并且极长的上下文也可帮助模型缓解灾难性遗忘问题。

然而,扩展序列长度面临的主要挑战是在计算复杂性和模型表达能力之间找到合适的平衡。

例如 RNN 风格的模型主要用于增加序列长度。然而,其序列特性限制了训练过程中的并行化,而并行化在长序列建模中是至关重要的。

最近,状态空间模型对序列建模非常有吸引力,它可以在训练过程中作为 CNN 运行,并在测试时转换为高效的 RNN。然而这类模型在常规长度上的表现不如 Transformer。

另一种扩展序列长度的方法是降低 Transformer 的复杂性,即自注意力的二次复杂性。现阶段,一些高效的基于 Transformer 的变体被提出,包括低秩注意力、基于核的方法、下采样方法、基于检索的方法。然而,这些方法尚未将 Transformer 扩展到 10 亿 token 的规模(参见图 1)。

微软新出热乎论文:Transformer扩展到10亿token图片

下表为不同计算方法的计算复杂度比较。N 为序列长度,d 为隐藏维数。

微软新出热乎论文:Transformer扩展到10亿token图片

方法

该研究的解决方案 LONGNET 成功地将序列长度扩展到 10 亿个 token。具体来说,该研究提出一种名为 dilated attention 的新组件,并用 dilated attention 取代了 Vanilla Transformer 的注意力机制。通用的设计原则是注意力的分配随着 token 和 token 之间距离的增加而呈指数级下降。该研究表明这种设计方法获得了线性计算复杂度和 token 之间的对数依赖性。这就解决了注意力资源有限和可访问每个 token 之间的矛盾。

微软新出热乎论文:Transformer扩展到10亿token图片

在实现过程中,LONGNET 可以转化成一个密集 Transformer,以无缝地支持针对 Transformer 的现有优化方法(例如内核融合(kernel fusion)、量化和分布式训练)。利用线性复杂度的优势,LONGNET 可以跨节点并行训练,用分布式算法打破计算和内存的约束。

最终,该研究有效地将序列长度扩大到 1B 个 token,而且运行时(runtime)几乎是恒定的,如下图所示。相比之下,Vanilla Transformer 的运行时则会受到二次复杂度的影响。

微软新出热乎论文:Transformer扩展到10亿token

该研究进一步引入了多头 dilated attention 机制。如下图 3 所示,该研究通过对查询 - 键 - 值对的不同部分进行稀疏化,在不同的头之间进行不同的计算。

微软新出热乎论文:Transformer扩展到10亿token图片

分布式训练

虽然 dilated attention 的计算复杂度已经大幅降低到微软新出热乎论文:Transformer扩展到10亿token,但由于计算和内存的限制,在单个 GPU 设备上将序列长度扩展到百万级别是不可行的。有一些用于大规模模型训练的分布式训练算法,如模型并行 [SPP+19]、序列并行 [LXLY21, KCL+22] 和 pipeline 并行 [HCB+19],然而这些方法对于 LONGNET 来说是不够的,特别是当序列维度非常大时。

该研究利用 LONGNET 的线性计算复杂度来进行序列维度的分布式训练。下图 4 展示了在两个 GPU 上的分布式算法,还可以进一步扩展到任意数量的设备。

微软新出热乎论文:Transformer扩展到10亿token

实验

该研究将 LONGNET 与 vanilla Transformer 和稀疏 Transformer 进行了比较。架构之间的差异是注意力层,而其他层保持不变。研究人员将这些模型的序列长度从 2K 扩展到 32K,与此同时减小 batch 大小,以保证每个 batch 的 token 数量不变。

表 2 总结了这些模型在 Stack 数据集上的结果。研究使用复杂度作为评估指标。这些模型使用不同的序列长度进行测试,范围从 2k 到 32k 不等。当输入长度超过模型支持的最大长度时,研究实现了分块因果注意力(blockwise causal attention,BCA)[SDP+22],这是一种最先进的用于语言模型推理的外推方法。

此外,研究删除了绝对位置编码。首先,结果表明,在训练过程中增加序列长度一般会得到更好的语言模型。其次,在长度远大于模型支持的情况下,推理中的序列长度外推法并不适用。最后,LONGNET 一直优于基线模型,证明了其在语言建模中的有效性。

微软新出热乎论文:Transformer扩展到10亿token

序列长度的扩展曲线

图 6 绘制了 vanilla transformer 和 LONGNET 的序列长度扩展曲线。该研究通过计算矩阵乘法的总 flops 来估计计算量。结果表明,vanilla transformer 和 LONGNET 都能从训练中获得更大的上下文长度。然而,LONGNET 可以更有效地扩展上下文长度,以较小的计算量实现较低的测试损失。这证明了较长的训练输入比外推法更具有优势。实验表明,LONGNET 是一种更有效的扩展语言模型中上下文长度的方法。这是因为 LONGNET 可以更有效地学习较长的依赖关系。

微软新出热乎论文:Transformer扩展到10亿token

扩展模型规模

大型语言模型的一个重要属性是:损失随着计算量的增加呈幂律扩展。为了验证 LONGNET 是否仍然遵循类似的扩展规律,该研究用不同的模型规模(从 1.25 亿到 27 亿个参数) 训练了一系列模型。27 亿的模型是用 300B 的 token 训练的,而其余的模型则用到了大约 400B 的 token。图 7 (a) 绘制了 LONGNET 关于计算的扩展曲线。该研究在相同的测试集上计算了复杂度。这证明了 LONGNET 仍然可以遵循幂律。这也就意味着 dense Transformer 不是扩展语言模型的先决条件。此外,可扩展性和效率都是由 LONGNET 获得的。

微软新出热乎论文:Transformer扩展到10亿token

长上下文 prompt

Prompt 是引导语言模型并为其提供额外信息的重要方法。该研究通过实验来验证 LONGNET 是否能从较长的上下文提示窗口中获益。

该研究保留了一段前缀(prefixes)作为 prompt,并测试其后缀(suffixes)的困惑度。并且,研究过程中,逐渐将 prompt 从 2K 扩展到 32K。为了进行公平的比较,保持后缀的长度不变,而将前缀的长度增加到模型的最大长度。图 7 (b) 报告了测试集上的结果。它表明,随着上下文窗口的增加,LONGNET 的测试损失逐渐减少。这证明了 LONGNET 在充分利用长语境来改进语言模型方面的优越性。

以上就是微软新出热乎论文:Transformer扩展到10亿token的详细内容,更多请关注其它相关文章!


# 证明了  # 安宁网站线上广告推广  # 菏泽seo技术多少钱  # 网站建设的分阶段步骤  # 营销推广策划方案题目  # 论坛营销推广是什么  # seo技巧100个  # 免费制作网站优化  # 海外网站推广优化专员  # 信阳360推广营销  # 石嘴山营销网站优化设计  # 提出了  # 互联网  # 将会  # 更长  # 较长  # 过程中  # 新出  # 官网  # 微软  # 扩展到  # claude  # 论文 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 美图公司影像节或发布AI设计新品  QQ音乐业内率先推出「AI一起听」功能,领取你的AI听歌助手  杭州举办第19届亚运会,主题为「亚运元宇宙」的发布仪式举行  Unity发布Sentis和Muse AI工具,助力创作游戏和3D内容  能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高  报道称亚马逊正在测试AI生成产品评价摘要  张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型  Snap宣布研发出新技术 可大幅提升AI生成图像速度  重磅! 捷通华声灵云AICC荣获第二届光合组织AI解决方案大赛二等奖  Moka发布AI原生HR SaaS产品“Moka Eva”,布局AGI时代  腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能  成都大运会闭幕式引入人形机器人展示表演  人形机器人概念集体爆发,能买吗?  谷歌内部正在测试代号为Genesis的AI新闻写作产品  禁止艺术家使用 AI 创作《龙与地下城》游戏插图的决定已在 D&D Beyond 生效  GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群  “思享荟”沙龙热议AIGC与元宇宙 复旦大学赵星畅谈深度数字化  塑造全能智能管家:华为小艺AI加成应对大模型挑战  英国前首相:AI可能被用来制造“生物恐怖武器”  英媒:硅谷有些人太鼓吹AI,宣扬“学习无用”  西班牙小鲜肉*视频在网上疯传,本人发文澄清:是AI换脸的假视频!  Adobe旗下Illustrator引入生成式AI工具Firefly  羚客系统即将升级,推出全新的AI数字化工具  谷歌推出 AI 反洗钱工具,可将金融机构内部风险预警准确率提高2至4倍  【趋势周报】全球元宇宙产业发展趋势:ChatGPT的出现,将元宇宙实现至少提前了10年  一次购买全年省心,入手科沃斯这几台机器人,省下时间就是金钱  读创正式上线“读创AI聊”功能  微软向美国政府提供GPT大模型,如何保证安全性?  马斯克:将来机器人比人类多!特斯拉机器人亮相人工智能大会  Midjourney创始人:AI应该成为人类思想的延伸  AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!  AI赋能艺术 超现实达利奇幻之旅在沪开启  AI智能室内效果图设计软件效果,确实惊到我了!  网易加速行业AI大模型应用,将覆盖100多个应用场景  苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景  张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域  为AI而服务设计:构建以人为本的AI创新方法  写出优质文章的妙招:利用"稿见AI助手"的实用指南  DeepMind用AI重写排序算法;将33B大模型塞进单个消费级GPU  绿联发布笑脸屏幕显示充电状态的30W/65W Q湃机器人充电器  MiracleVision视觉大模型功能介绍  揭晓2025年玻尔兹曼奖:Hopfield网络创始人荣获奖项  一家 380 亿美元的数据巨头,要掀起企业「AI 化」革命  首个算网生态体!中国移动元宇宙产业联盟正式成立  调研海尔智家:AI名,家电命?  联想创投携手12家被投企业MWC展示元宇宙、机器人等技术  生成式AI对云运维的3大挑战  华为联合合作伙伴 共同发布昇腾AI大模型训推一体化解决方案  华为推出全新操作系统HarmonyOS 4,AI和新引擎完美融合  国内首家,360智脑通过中国信通院可信AIGC大语言模型功能评估 

 2023-07-22

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.