大语言模型(large language models, llms)在过去两年内迅速发展,涌现出一些现象级的模型和产品,如 gpt-4、gemini、claude 等,但大多数是闭源的。研究界目前能接触到的大部分开源 llms 与闭源 llms 存在较大差距,因此提升开源 llms 及其他小模型的能力以减小其与闭源大模型的差距成为了该领域的研究热点。
LLM 的强大能力,特别是闭源 LLM,使得科研人员和工业界的从业者在训练自己的模型时都会利用到这些大模型的输出和知识。这一过程本质上是知识蒸馏(Knowledge, Distillation, KD)的过程,即从教师模型(如 GPT-4)中蒸馏知识到较小的模型(如 Llama)中,显著提升了小模型的能力。可以看出,大语言模型的知识蒸馏技术无处不在,且对于研究人员来说是一种性价比高、有效的方法,有助于训练和提升自己的模型。
那么,当前的工作如何利用闭源 LLM 进行知识蒸馏和获取数据?如何有效地将这些知识训练到小模型中?小模型能够获取教师模型的哪些强大技能?在具有领域特点的工业界,LLM 的知识蒸馏如何发挥作用?这些问题值得深入思考和研究。
在 2025 年,陶大程团队发表了《Knowledge Distillation: A Survey》,全面探讨了知识蒸馏在深度学习中的应用。该技术主要用于模型的压缩和加速。随着大型语言模型的兴起,知识蒸馏的应用领域得到了不断拓展,不仅能够提升小型模型的性能,还能实现模型自我提升。
2025 年初,陶大程团队与香港大学和马里兰大学等合作,发表了最新综述《A Survey on Knowledge Distillation of Large Language Models》,总结了 374 篇相关工作,探讨了如何从大语言模型中获取知识,训练较小模型,以及知识蒸馏在模型压缩和自我训练中的作用。同时,该综述也涵盖了对大语言模型技能的蒸馏以及垂直领域的蒸馏,帮助研究者全面了解如何训练和提升自己的模型。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文题目:A Survey on Knowledge Distillation of Large Language Models
论文链接:https://arxiv.org/abs/2402.13116
项目链接:https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs
综述架构
大语言模型知识蒸馏的整体框架总结如下图所示:

首先,根据大语言模型知识蒸馏的流程,该综述将知识蒸馏分解为了两个步骤:
1. 知识获取(Knowledge Elicitation):即如何从教师模型中获取知识。其过程主要包括:
a) 首先构建指令来确定要从教师模型中蒸馏的技能或垂直领域的能力。
b) 然后使用种子知识(如某个数据集)作为输入来驱动教师模型,生成对应的回应,从而将相应的知识引导出来。
c) 同时,知识的获取包含一些具体技术:标注、扩展、合成、抽取特征、反馈、自身知识。
2. 蒸馏算法(Distillation Algorithms):即如何将获取的知识注入到学生模型中。该部分具体算法包括:有监督微调、散度及相似度、强化学习(即来自 AI 反馈的强化学习,RLAIF)、排序优化。
该综述的分类方法根据此过程,将相关工作从三个维度进行了总结:知识蒸馏的算法、技能蒸馏、以及垂直领域的蒸馏。后两者都基于知识蒸馏算法来进行蒸馏。该分类的细节以及对应的相关工作总结如下图所示。

知识蒸馏算法
知识获取 (Knowledge Elicitation)
根据从教师模型中获取知识的方式,该综述将其技术分为标注 (Labeling)、扩展 (Expansion)、数据合成 (Data Curation)、特征抽取 (Feature)、反馈 (Feedback)、自生成的知识 (Self-Knowledge)。每个方式的示例如下图所示:

标注(Labeling):知识标注是指由教师 LLMs 根据指令或示例,对给定的输入作为种子知识,生成对应的输出。例如,种子知识为某一个数据集的输入,教师模型标注思维链输出。
扩展(Expansion):该技术的一个关键特征是利用 LLMs 的上下文学习能力,根据提供的种子示例,来生成与示例相似的数据。其优点在于通过示例能生成更加多样化和广泛的数据集。但是随着生成数据的继续增大,可能会造成数据同质化问题。
数据合成(Data Curation):数据合成的一个显著特点是其从零开始合成数据。其利用大量且多样的元信息(如话题、知文档、原始数据等)来作为多样且巨量的种子知识,以从教师 LLMs 中获取规模庞大而且质量高的数据集。
特征获取(Feature):获取特征知识的典型方法主要为将输入输出序列输出到教师 LLMs 中,然后抽取其内部表示。该方式主要适用于开源的 LLMs,常用于模型压缩。
反馈(Feedback):反馈知识通常为教师模型对学生的输出提供反馈,如提供偏好、评估或纠正信息来指导学生生成更好输出。
Machine Translation
聚合多个来源的AI翻译
49
查看详情
自生成知识(Self-Knowledge):知识也可以从学生自身中获取,称之为自生成知识。在这种情况下,同一个模型既充当教师又充当学生,通过蒸馏技术以及改进自己先前生成的输出来迭代地改进自己。该方式非常适用于开源 LLMs。
总结:目前,扩展方法仍然被广泛应用,数据合成方式因为能够生成大量高质量的数据而逐渐成为主流
。反馈方法能够提供有利于学生模型提升对齐能力的知识。特征获取和自生成知识的方式因为将开源大模型作为教师模型而变得流行起来。特征获取方式有助于压缩开源模型,而自生成知识的方式能够持续地提升大语言模型。重要的是,以上方法可以有效地组合,研究人员可以探索不同方式的组合来引导出更有效的知识。
蒸馏算法(Distilling Algorithms)
获取知识之后,就需要将知识蒸馏到学生模型中。蒸馏的算法有:有监督微调、散度及相似度、强化学习,以及排序优化。示例如下图所示:

有监督微调:监督微调(SFT)通过最大化教师模型生成的序列的似然性来微调学生模型,让学生模型来模仿教师模型。这是目前 LLMs 知识蒸馏中最常用的一个技术。
散度及相似度(Divergence and Similarity):该算法将教师模型内部的参数知识作为学生模型训练的监督信号,适用于开源教师模型。基于散度与相似度的方法分别对齐概率分布以及隐藏状态。
强化学习(Reinforcement Learning):该算法适用于利用教师的反馈知识来训练学生模型,即 RLAIF 技术。主要有两个方面:(1)使用教师生成的反馈数据训练一个学生奖励模型,(2)通过训练好的奖励模型,以最大化预期奖励来优化学生模型。教师也可以直接作为奖励模型。
排序优化(Rank Optimization):排序优化也可以将偏好知识注入到学生模型中,其优点在于稳定且计算效率高,一些经典算法如 DPO,RRHF 等。
技能蒸馏
众所周知,大语言模型具有许多出色的能力。通过知识蒸馏技术,提供指令来控制教师生成包含对应技能的知识并训练学生模型,从而使其获取这些能力。这些能力主要包括遵循语境(如指令)、对齐、智能体、自然语言处理(NLP)任务和多模态等能力。
下表总结了技能蒸馏的经典的工作,同时总结了各个工作涉及到的技能、种子知识、教师模型、学生模型、知识获取方式、蒸馏算法。

垂直领域蒸馏
除了在通用领域的大语言模型,现在有很多工作训练垂直领域的大语言模型,这有助于研究界以及工业界对大语言模型的应用与部署。而大语言模型(如 GPT-4)在垂直领域上虽然具备的领域知识是有限的,但是仍能够提供一些领域知识、能力或者增强已有的领域数据集。这里涉及到的领域主要有(1)法律,(2)医疗健康,(3)金融,(4)科学,以及一些其他领域。该部分的分类学以及相关工作如下图所示:

未来方向
该综述探讨了目前大语言模型知识蒸馏的问题以及潜在的未来研究方向,主要包括:
数据选择:如何自动选择数据以实现更好的蒸馏效果?
多教师蒸馏:探究将不同教师模型的知识蒸馏到一个学生模型中。
教师模型中更丰富的知识:可以探索教师模型中更丰富的知识,包括反馈和特征知识,以及探索多种知识获取方法的组合。
克服蒸馏过程中的灾难性遗忘:在知识蒸馏或迁移过程中有效地保留原始模型的能力仍然是一个具有挑战性的问题。
可信知识蒸馏:目前 KD 主要集中在蒸馏各种技能,对于大模型可信度方面的关注相对较少。
弱到强的蒸馏(Weak-to-Strong Distillation)。OpenAI 提出了 “弱到强泛化” 概念,这需要探索创新的技术策略,使较弱的模型能够有效地引导较强的模型的学习过程。
自我对齐(自蒸馏)。可以设计指令使得学生模型通过生成反馈、批评和解释等内容使其自主地改进、对齐其生成内容。
结论
该综述对如何利用大语言模型的知识来提升学生模型,如开源大语言模型,进行了全面且系统地总结,同时包括了近期较流行的自蒸馏的技术。该综述将知识蒸馏分为了两个步骤:知识获取以及蒸馏算法,同时总结了技能蒸馏以及垂直领域蒸馏。最后,该综述探讨了蒸馏大语言模型的未来方向,希望推动大语言模型知识蒸馏的边界,得到更易获取、高效、有效、可信的大语言模型。
以上就是总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述的详细内容,更多请关注其它相关文章!
# 主要包括
# 石家庄新站seo诀窍
# 价格低的网站优化推广
# 网络seo优化怎样做
# 南宁网站推广自助招聘
# 网站营销推广巍忻hfqjwl
# 做网站seo推广公司
# 三明营销推广服务公司
# 平顶山外贸网站优化费用
# seo兼职在哪里找广告
# 美国有seo吗
# 总结了
# 丰田
# 产业
# 本田
# 有效地
# 如下图
# 开源
# 自己的
# 所示
# 港大
# llama
# claude
# gemini
# 知识蒸馏
# 大语言模型
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
高质量数据推动AI场景化应用快速发展及落地
日媒:AI高效解析纳斯卡地画
MiracleVision视觉大模型功能介绍
谷歌StyleDrop在可控性上卷翻MidJourney,前GitHub CTO用AI颠覆编程
人才智能平台转型中的人工智能的关键角色
食品分销跨国企业Sysco CIDO:我们的增长秘诀是以IT为中心
实践J*a开发,构建高性能的MongoDB数据迁移工具
Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙
新华社联合北大发布AI大模型评测:安全可靠成重点,360智脑表现优异
工业机器人及非标自动化设备集成服务提供商
【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资
赋能金融新生态,多家银行创新应用成果亮相世界人工智能大会
百度文心一言App上架苹果商店,人工智能创作引发热议
7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会
阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型
英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练
AI绘画,还需要懂数学?
时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了
AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!
美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?
美图公司:Wink国内首发AI画面拓展功能
酒店业将如何受益于人工智能的改变?
马斯克“揭秘”人工智能真面目
如布AI口袋学习机S12 将亮相综艺节目《好样的!国货》
全场景智能车:智能无处不在|芯驰亮相世界人工智能大会
Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%
NTU、上海AI Lab整理300+论文:基于Transformer的视觉分割最新综述出炉
十个AI算法常用库J*a版
磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元
石头扫拖机器人 G20 618 福利来袭:4999 元,超值配件领到手软
AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地
1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能
张朝阳陆川谈AI:大数据模型大幅提升工作效率,ChatGPT冲击最大的是内容创作领域
羚客系统即将升级,推出全新的AI数字化工具
微软Bing聊天机器人电脑端即将支持语音提问
“聚智启新,‘蓉’力同行” 成都市人工智能产业融通对接会成功举办
自己动手使用AI技术实现数字内容生产
Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月
烟台大学学生首次在全国大学生无人机航拍竞赛中获奖
如何成功实施人工智能?
闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景
人工智能和你聊天 成本有多高
Stability AI 推出文生图模型 SDXL0.9,GPU要求下探至消费级水平
热点 | 人工智能黄金时代开启
「社交达人」GPT-4!解读表情、揣测心理全都会
当一个网站的内容被 AI 完全接管
美图第二届影像节发布七款AI影像创作工具
能走、能飞、能游泳,科学家打造全能 M4 机器人
华为HarmonyOS 4:享流畅提升20%,AI大模型更智能一览无余
鹅厂机器狗抢起真狗「饭碗」!会撒欢儿做游戏,遛人也贼6
2024-03-18
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。