田渊栋团队新研究:微调


在大家不断升级迭代自家大模型的时候,LLM(大语言模型)对上下文窗口的处理能力,也成为一个重要评估指标。

比如 OpenAI 的 gpt-3.5-turbo 提供 16k token 的上下文窗口选项,AnthropicAI 的更是将 Claude 处理 token 能力提升到 100k。大模型处理上下文窗口是个什么概念,就拿 GPT-4 支持 32k token 来说,这相当于 50 页的文字,意味着在对话或生成文本时,GPT-4 最多可以记住 50 页左右内容。 

一般来讲,大语言模型处理上下文窗口大小的能力是预定好的。例如,Meta AI 发布的 LLaMA 模型,其输入 token 大小必须少于 2048。

然而,在进行长对话、总结长文档或执行长期计划等应用程序中,经常会超过预先设置的上下文窗口限制,因而,能够处理更长上下文窗口的 LLM 更受欢迎。

但这又面临一个新的问题,从头开始训练具有较长上下文窗口的 LLM 需要很大的投入。这自然引出一个疑问:我们能否扩展现有的预训练 LLM 的上下文窗口?

一种直接的方法是对现有的预训练 Transformer 进行微调,以获得更长的上下文窗口。然而,实证结果表明,使用这种方式训练的模型对长上下文窗口的适应速度非常慢。经过 10000 个批次的训练后,有效上下文窗口的增加仍然非常小,仅从 2048 增加到 2560(实验部分的表 4 可以看出)。这表明这种方法在扩展到更长的上下文窗口上效率低下。

本文中,来自 Meta 的研究者引入了位置插值(Position Interpolation,PI)来对某些现有的预训练 LLM(包括 LLaMA)的上下文窗口进行扩展。结果表明,LLaMA 上下文窗口从 2k 扩展到 32k,只需要小于 1000 步的微调

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

论文地址:https://arxiv.org/pdf/2306.15595.pdf

ChatGPT Writer ChatGPT Writer

免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。

ChatGPT Writer 106 查看详情 ChatGPT Writer

该研究的关键思想不是进行外推(extrapolation),而是直接缩小位置索引,使得最大位置索引与预训练阶段的上下文窗口限制相匹配。换句话说,为了容纳更多的输入 token,该研究在相邻的整数位置上插值位置编码,利用了位置编码可以应用于非整数位置的事实,与在训练过的位置之外进行外推相比,后者可能导致灾难性的数值。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究

PI 方法将基于 RoPE(旋转位置编码)的预训练 LLM(如 LLaMA)的上下文窗口大小扩展到最多 32768,只需进行最小的微调(在 1000 个步骤内),这一研究在需要长上下文的各种任务上性能较好,包括检索、语言建模以及从 LLaMA 7B 到 65B 的长文档摘要。与此同时,通过 PI 扩展的模型在其原始上下文窗口内相对保持了较好的质量。

方法

在我们比较熟悉的 LLaMA、ChatGLM-6B、PaLM 等大语言模型中,都有 RoPE 身影,该方法由追一科技苏剑林等人提出,RoPE 通过绝对编码的方式实现了相对位置编码。

虽然 RoPE 中的注意力得分只取决于相对位置,但它的外推性能并不好。特别是,当直接扩展到更大的上下文窗口时,困惑度可能会飙升到非常高的数字 (即 > 10^3)。

本文采用位置插值的方法,其与外推方法的比较如下。由于基函数 ϕ_j 的平滑性,插值更加稳定,不会导致野值。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

 该研究将 RoPE f 替换为 f ′,得到如下公式

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

该研究将在位置编码上的转换称为位置插值。这一步将位置索引从 [0, L′ ) 缩减到 [0, L) ,以匹配计算 RoPE 前的原始索引范围。因此,作为 RoPE 的输入,任意两个 token 之间的最大相对距离已从 L ′ 缩减到 L。通过在扩展前后对位置索引和相对距离的范围进行对齐,减轻了由于上下文窗口扩展而对注意力分数计算产生的影响,这使得模型更容易适应。

值得注意的是,重新缩放位置索引方法不会引入额外的权重,也不会以任何方式修改模型架构。

实验

该研究展示了位置插值可以有效地将上下文窗口扩展到原始大小的 32 倍,并且这种扩展只需进行几百个训练步骤即可完成。

表 1 和表 2 报告了 PI 模型和基线模型在 PG-19 、 Arxiv Math Proof-pile 数据集上的困惑度。结果表明使用 PI 方法扩展的模型在较长的上下文窗口大小下显著改善了困惑度。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究

表 3 报告了在 PG19 数据集上使用 PI 方法,将 LLaMA 7B 模型扩展到 8192 和 16384 上下文窗口大小时的困惑度与微调步数之间的关系。

由结果可得,在没有微调的情况下(步数为 0),模型可以展现出一定的语言建模能力,如将上下文窗口扩展到 8192 时的困惑度小于 20(相比之下,直接外推方法的困惑度大于 10^3)。在 200 个步骤时,模型的困惑度超过了 2048 上下文窗口大小下原始模型的困惑度,表明模型能够有效利用比预训练设置更长的序列进行语言建模。在 1000 个步骤时可以看到模型稳步改进,并取得了更好的困惑度。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

下表表明,通过 PI 扩展的模型在有效上下文窗口大小方面都成功地实现了扩展目标,即仅通过微调 200 个步骤后,有效上下文窗口大小达到最大值,在 7B 和 33B 模型大小以及最高 32768 上下文窗口的情况下保持一致。相比之下,仅通过直接微调扩展的 LLaMA 模型的有效上下文窗口大小仅从 2048 增加到 2560,即使经过 10000 多个步骤的微调,也没有明显加速窗口大小增加的迹象。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

表 5 显示扩展到 8192 的模型在原始基准任务上产生了可比较的结果,而该基准任务是针对更小的上下文窗口设计的,对于 7B 和 33B 模型大小,在基准任务中的退化最多达到 2%。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

表 6 表明,具有 16384 上下文窗口的 PI 模型,可以有效地处理长文本摘要任务。

不到1000步微调,将LLaMA上下文扩展到32K,田渊栋团队最新研究图片

以上就是田渊栋团队新研究:微调的详细内容,更多请关注其它相关文章!


# 有效地  # 网站建设招聘岗位  # 海口优质网站建设  # 三防培训网站建设  # seo指哪些  # seo具体优化  # 淘宝关键词如何提升排名  # 内部seo优化包括  # 网站推广营销面试技巧  # 精准营销及推广平台官网  # 沛县推广网站建设前景  # 较长  # 模型  # 较好  # 只需  # 丰田  # 中国科学院  # 更长  # 最多  # 插值  # 扩展到  # llama  # claude  # meta 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 直击上影节 | 光线传媒董事长王长田谈新技术:未来VR放映效果可能媲美影院  如何用户外电源给无人机实现持久续航  7条线路感受智慧美好生活,“2025 世界人工智能大会民营企业社会开放日”主题活动启动  能走、能飞、能游泳,科学家打造全能 M4 机器人  学而思网校推出首个基于自研大模型的《人工智能第一课》  WHEE使用教程  智能公司为何纷纷投身机器人领域?  映宇宙数字人“映映”亮相ChinaJoy,展示AI黑科技实现用户互动  当TS遇上AI,会发生什么?  PHP和OpenCV库:如何实现人脸识别  放弃自动驾驶,也是一种和解  争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?  张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型  业内领先 四川大学华西第四医院甲状腺乳腺外科成功进入手术机器人时代  华为即将推出HarmonyOS 4,再度领先行业的AI技术  有 ARM 和 X86 两个版本,香橙派游戏掌机细节曝光  花16000元买四款扫拖机器人!科沃斯追觅石头小米谁能笑到最后?  世界上第一个完全由人工智能驱动的图像编辑器!  笔神作文声讨学而思AI大模型 称用“爬虫”技术盗取数据  陈丹琦ACL学术报告来了!详解大模型「*」数据库7大方向3大挑战,3小时干货满满  五个IntelliJ IDEA插件,高效编写代码  可按用户语气自动回复消息,Zoom 推出基于生成式 AI 的新功能  喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新  换流站无线物联网络为新型电力系统铺设“数字之路”  数据科学,解码智能未来——Altair首次提出“Frictionless AI”概念  击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞  AI赋能艺术 超现实达利奇幻之旅在沪开启  看了天美对AI的布局,我感觉它想得是真明白  上海发布大模型政策 打造AI“模”都  尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元  支持跨语言、人声狗吠互换,仅利用最近邻的简单语音转换模型有多神奇  AI在教育中的角色:AI如何改变我们的学习方式  网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手  技术如何使人变得懒惰?  网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手  央视报道车载人机交互技术!MWC上海魅族表现亮眼,现场热火朝天  财联社首档运用虚拟人技术播报栏目《AI半小时》今晚上线!敬请期待  IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步  “上海市民营企业人工智能赋能创新中心”揭牌成立  推动企业数字化转型升级!“松江智造”摘世界人工智能大会重磅奖项  人工智能如何与智能家居集成  元宇宙迈入2.0时代,它和生成式人工智能有何关联吗?  人工智能正在弥合认知和表达之间的鸿沟  苹果AR头显商标与华为撞车,在中国或改名  全媒封面丨⑤商汤科技:原创AI算法“发电厂”  马斯克:将来机器人比人类多!特斯拉机器人亮相人工智能大会  英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍  应用生成式人工智能技术改善农业产业  美图第二届影像节发布七款AI影像创作工具  MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码 

 2023-06-30

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.