大语言模型(LLMs)虽展现出了强大的能力,但也可能产生不可预测和有害的输出,例如冒犯性回应、虚假信息和泄露隐私数据,给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐,是一个紧迫的挑战。
尽管基于人类反馈的强化学习(RLHF)提供了一种解决方案,但它面临复杂的训练架构、对参数的高敏感性,以及奖励模型在不同数据集上的不稳定性等多重挑战。这些因素导致 RLHF 技术实现难、奏效难、复现难。
为了克服这些挑战,北京大学团队提出了一种新的高效对齐范式 ——Aligner,其核心在于学习答案对齐与未对齐之间的修正残差,从而绕过繁琐的 RLHF 流程。
借鉴残差学习和可扩展监督思想,Aligner简化了对齐过程。它使用Seq2Seq模型学习隐式残差并通过复制和残差修正步骤优化对齐效果。
相较于 RLHF 需要训练多个模型的复杂性,Aligner 的优势在于只需通过在待对齐模型后添加一个模块即可实现对齐。此外,所需计算资源主要取决于对齐效果的期望,而非上游模型的规模。实验证明,使用 Aligner-7B 能够显著提高 GPT-4 的帮助性和安全性,其中帮助性增加了17.5%,安全性增加了26.9%。这些结果表明 Aligner 是一种高效且有效的对齐方法,为模型的性能提升提供了可行的解决方案。
此外,利用 Aligner 框架,作者通过弱模型(Aligner-13B)监督信号增强强模型(Llama-70B)性能,实现了 weak-to-strong 泛化,为超级对齐提供了实践方案。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

基于核心洞察:
correcting unaligned answer is easier than generating aligned answers.
修正未对齐的回答要比生成对齐的回答容易。
作为一种高效的对齐方法,Aligner 具备以下优秀特性:
参数量大的 LLMs ,显著提升了强模型的性能。例如,利用 Aligner-13B 监督下微调 Llama2-70B,其帮助性和安全性分别提升了 8.2% 和 61.6%。Aligner 总体性能表现
作者展现了各个尺寸的 Aligner(7B,13B,70B)在基于 API 的模型、开源模型(包括经过安全对齐和未经过安全对齐)均能提升性能表现。总体来说,随着模型变大,Aligner 的性能逐步提升,并且修正时所能提供的信息密度逐渐增大,这也使得修正后的答案更加安全且具有帮助性。
TTSMaker
TTSMaker是一个免费的文本转语音工具,提供语音生成服务,支持多种语言。
2275
查看详情

1.Query-Answer (Q-A) 数据收集
作者从各种开源数据集中获取 Query,包括 Stanford Alpaca、ShareGPT、HH-RLHF 以及其他用户共享对话。这些问题经历了重复模式去除和质量过滤的过程,用于后续的答案和更正的答案生成。未修正的回答则是使用各种开源模型生成的,如 Alpaca-7B、Vicuna-(7B,13B,33B)、Llama2-(7B,13B)-Chat, and Alpaca2-(7B,13B)。
2. 答案修正
作者使用 GPT-4、Llama2-70B-Chat 和人工标注来根据大语言模型的 3H 标准(帮助性、安全性、诚实性)来修正 Q-A 数据集中的答案。
对于已符合标准的答案,保持原样。修改过程基于一系列定义明确的原则,从而为 Seq2Seq 模型的训练建立了约束条件,重点在于提升回答的帮助性和安全性。答案的修正前后分布变化明显,下图清晰展示了修改对数据集的影响:

3. 模型训练
基于上述过程,作者构建了新的修正数据集
,其中
表示用户的问题,
是问题的原始答案,
是根据既定原则修正的答案。
模型训练过程相对简单。作者训练一个由
参数化的条件 Seq2Seq 模型
,使得原始答案
重分布到对齐的答案。
基于上游大语言模型的对齐答案生成过程为:

训练的 loss 如下:

其中第 2 项与 Aligner 参数无关,Aligner 的训练目标可以推导为:

下图动态地展示了 Aligner 的中间过程:

值得注意的是,Aligner 在训练和推理阶段都不需要访问上游模型的参数。Aligner 的推理过程只需要获取用户的问题和上游大语言模型生成的初始答案,然后生成更符合人类价值观的答案。
修正现有答案而不是直接回答,这使得 Aligner 能够容易地与人类价值观对齐,从而显著降低了对模型能力的要求。
Aligner vs SFT
与 Aligner 相反,SFT 直接从 Query 语义空间创建到 Answer 语义空间的跨域映射,这个过程学习依赖于上游模型来推断和模拟语义空间中的各种上下文,这比学习修正信号要难得多。
Aligner 训练范式可以被认为是一种残差学习(残差修正)形式,作者在 Aligner 中创建 「复制(copy)+ 修正(correct)」学习范式。因此,Aligner 在本质上创建了从回答语义空间到修正的回答的语义空间的残差映射,这两个语义空间在分布上更接近。
为此,作者从 Q-A-C 训练数据集中以不同比例构造了 Q-A-A 数据,训练 Aligner 进行恒等映射学习(也称为 copy mapping)(称为预热步骤)。在此基础上,使用整个 Q-A-C 训练数据集进行训练,这种残差学习范式,也被 ResNet 中采用用来解决堆叠过深的神经网络导致的梯度消失的问题。实验结果表明:当预热比例为 20% 时,模型能够获得最佳表现。
Aligner vs RLHF
RLHF 通过在人类偏好数据集上训练奖励模型(RM),并利用这个奖励模型来进行 PPO 算法微调 LLMs,从而使 LLMs 和人类偏好的行为相一致。
具体而言,奖励模型需要将人类偏好数据从离散映射到连续的数值空间以进行优化,但是相较于在文本空间具有较强泛化能力的 Seq2Seq 模型,这类数值奖励模型在文本空间的泛化能力较弱,从而导致了 RLHF 在不同的模型上效果不稳定。
而 Aligner 通过训练一个 Seq2Seq 模型来学习对齐和未对齐答案之间的差异性(残差),从而有效的避开了 RLHF 过程,并取得了比 RLHF 更具备泛化性的表现。
Aligner vs. Prompt Engineering
提示词工程(Prompt Engineering )是激发 LLMs 能力的常见方法,然而这种方法存在着一些关键问题,如:难以设计 prompt,且需要针对不同模型进行不同设计,最终效果依赖于模型的能力,当模型能力不足以解决任务时,可能需要多次迭代,浪费上下文窗口,小模型的上下文窗口受限会影响到提示词工程的效果,而对于大模型而言,占用过长的上下文极大增加了训练的成本。
Aligner 本身可以支持任意模型的对齐,经过一次训练可以对齐 11 类不同类型的模型,并且能够不占用原模型的上下文窗口。值得注意的是,Aligner 可以与现有的提示词工程方法无缝结合起来,达到 1+1>2 的效果。
总的来说:Aligner 展现出了以下显著优势:
1.Aligner 训练更加简单。相较于 RLHF 复杂的奖励模型学习及基于该模型的强化学习(RL)微调过程,Aligner 的实现过程更为直接且易于操作。反观 RLHF 中涉及的多项工程调参细节以及 RL 算法的固有不稳定性和超参数敏感性,Aligner 大大简化了工程复杂度。
2.Aligner 训练数据少且对齐效果明显。基于 20K 数据训练一个 Aligner-7B 的模型,可以提升 GPT-4 在帮助性方面 12% 以及安全性方面 26%,并提升 Vicuna 33B 模型 29% 的帮助性以及 45.3% 的安全性,而 RLHF 需要更多的偏好数据,并需要精细化的调参才有望达到这个效果。
3.Aligner 不需要接触模型权重。虽然 RLHF 在模型对齐方面被证明有效,但依赖于对模型直接训练。面对未开源的 API-based 模型如 GPT-4 及其在下游任务中的微调需求,RLHF 的适用性受限。相反,Aligner 无需直接操作模型原始参数,通过将对齐需求外置于一个独立的对齐模块中,实现了灵活的对齐方式。
4.Aligner 对模型类型无感。在 RLHF 框架下,针对不同模型(如 Llama2,Alpaca)的微调不仅需要重新收集偏好数据,还需在奖励模型训练及 RL 阶段调整训练参数。而 Aligner 通过一次性训练,可以支持任意模型的对齐。例如,仅需要在修正数据集上训练一次,Aligner-7B 可以对齐 11 种不同模型(包括开源模型、API 模型如 GPT),并在帮助性和安全性方面分别提升 21.9% 和 23.8% 性能。
5.Aligner 对训练资源的需求更加灵活。RLHF 微调一个 70B 的模型仍然对计算资源有着极高的要求,需要数百个 GPU 卡才能进行。因为 RLHF 方法还需要额外加载与模型参数量相当的奖励模型、Actor 模型及 Critic 模型。因此,就单位时间内的训练资源消耗而言,RLHF 实际上需要比预训练更多的计算资源。
相较之下,Aligner 提供了更为灵活的训练策略,允许用户根据自身的实际计算资源情况,灵活选择 Aligner 的训练规模。例如,针对一个 70B 模型的对齐需求,用户可以根据实际可用的资源选择不同规模的 Aligner 模型(7B、13B、70B 等),以实现目标模型的有效对齐。
这种灵活性不仅降低了对计算资源的绝对需求,也为用户提供了在有限资源下进行高效对齐的可能性。

Weak-to-strong generalization 讨论的问题在于能否使用弱模型的标签训练强模型,使得强模型在性能上有所提升。OpenAI 使用这一类比旨在解决超对齐(SuperAlignment) 的问题,具体来说,他们使用真值标签(groud truth)训练弱模型。
OpenAI 的研究人员进行了一些初步实验,例如在文本分类(text classfication)的任务上,训练数据集被分为了两部分,前半部分的输入和真值标签被用来训练弱模型,而后半部分的训练数据仅保留输入,标签由弱模型产生。在训练强模型时仅使用弱模型产生的弱标签为强模型提供监督信号。
使用真值标签训练弱模型是为了使弱模型获得解决相应任务的能力,但是用于产生弱标签的输入和训练弱模型的输入并不相同。这种范式类似于 「教学」 的概念,即用弱模型来指导强模型。
作者基于 Aligner 的性质,提出了一种新颖的 weak-to-strong generalization 范式。
作者的核心观点是让 Aligner 充当 「站在巨人肩膀上的监督员」。与 OpenAI 直接监督「巨人」的方法不同,Aligner 将通过弱到强的修正,修正更强的模型在这一过程中提供更准确的标签。
具体来说,在 Aligner 的训练过程中,修正数据包含 GPT-4、人类标注员和更大的模型标注。随后,作者使用 Aligner 在新的 Q-A 数据集上生成弱标签(即修正);进而使用弱标签对原模型进行微调。
实验结果表明这一范式可以进一步提升模型的对齐表现。
Aligner vs SFT/RLHF/DPO
作者使用 Aligner 的 Query-Answer-Correction 训练数据集,分别通过 SFT/RLHF/DPO 方法对 Alpaca-7B 进行微调。
进行性能评估时,使用开源的 Be*erTails 和 HarmfulQA 的测试 prompt 数据集,将微调后模型生成的回答与对原始 Alpaca-7B 模型的回答使用 Aligner 进行修正后产生的回答,在帮助性和安全性方面进行比较,结果如下:

实验结果表明,Aligner 对比诸如 SFT/RLHF/DPO 这样成熟的 LLM 对齐范式具有明显的优势,在帮助性和安全性这两个指标上均有显著领先。
分析具体的实验案例,可以发现,使用 RLHF/DPO 范式微调的对齐模型,为了提升安全性可能更倾向于产生保守的回答,而在提升帮助性的过程中又无法兼顾安全性,导致回答中的危险信息增加。
Aligner vs Prompt Engineering
对比 Aligner-13B 与 CAI / Self-Critique 方法对同一上游模型的性能提升,实验结果如下图所示:Aligner-13B 对 GPT-4 在帮助性和安全性两方面的提升,均高于 CAI/Self-Critique 方法,这说明 Aligner 范式相较于常用 prompt engineering 方法具有明显优势。
值得注意的是,实验中仅在推理时使用 CAI prompts,以鼓励其自我修改答案,这也是 Self-Refine 的形式之一。

除此之外,作者还进行了进一步探究,他们对使用 CAI 方法修正后的回答再经过 Aligner 进行修正,并将经过 Aligner 前后的回答进行直接比较,实验结果如下图所示。

Method A:CAI + Aligner Method B:CAI only
使用 Aligner 对 CAI 修正后的回答进行二次修正后,回答在不损失安全性的同时,在帮助性方面的获得了极为显著的提升。这说明 Aligner 不仅在单独使用时具有很强的竞争力,还能与其他现有对齐方法结合,进一步提升其性能。
Weak-to-strong Generalization

Method:weak-to-strong 训练数据集由(q,a,a′)三元组组成,其中 q 表示来自 Aligner 训练数据集 - 50K 的问题,a 表示 Alpaca-7B 模型生成的答案,a′表示 Aligner-7B 给定的对齐答案(q,a)。与仅利用 a′作为基本事实标签的 SFT 不同,在 RLHF 和 DPO 训练中,a′被认为比 a 更好。
作者在新的 Q-A 数据集上用 Aligner 对原回答进行修正,将修正后的回答作为弱标签,并用这些弱标签作为监督信号训练更大尺寸的模型。这一过程和 OpenAI 的训练范式是类似的。
作者通过三种方法基于弱标签对强模型进行训练:SFT、RLHF 和 DPO。上表的实验结果显示,通过 SFT 微调上游模型时,Aligner-7B 和 Aligner-13B 的弱标签在所有场景中都提高了 Llama2 系列强模型的性能。
Aligner 作为一种创新的对齐方法,拥有巨大的研究潜力。在论文中,作者提出了几种 Aligner 的应用场景,包括:
1. 多轮对话场景的应用。在多轮对话中,面对稀疏奖励的挑战尤为突出。在问答式对话(QA)中,通常只有在对话结束时才能获得标量形式的监督信号。
这种稀疏性在多轮对话(例如连续的 QA 场景)中的问题会进一步放大,导致基于强化学习的人类反馈(RLHF)难以发挥效果。研究 Aligner 在改善多轮对话对齐效果方面的潜力,是一个值得深入探索的领域。
2. 人类价值向奖励模型的对齐。在基于人类偏好的奖励模型构建和大型语言模型(LLMs)微调的多阶段过程中,确保 LLMs 与特定的人类价值(例如公平性、共情等)对齐面临巨大挑战。
通过将价值对齐任务交由模型外的 Aligner 对齐模块处理,并利用特定语料训练 Aligner,不仅为价值对齐提供了新的思路,还使 Aligner 能够修正前置模型的输出以反映特定的价值观。
3.MoE-Aligner 的流式化和并行处理。通过将 Aligner 专门化处理并集成,可以创建更强大且全面的混合专家(MoE)Aligner,这种 Aligner 能够满足多重混合安全及价值对齐需求。同时,进一步提高 Aligner 的并行处理能力,以减少推理时间的损耗,是一个可行的发展方向。
4. 模型训练过程中的融合。通过在特定的权重层后集成 Aligner 层,可以实现对模型训练过程中输出的实时干预。这种方法不仅能提高对齐效率,还有助于优化模型训练流程,实现更高效的模型对齐。
该工作由北京大学人工智能研究院 AI 安全与治理中心杨耀东课题组独立完成。团队深耕大语言模型的对齐技术,包括开源百万级安全对齐偏好数据集 Be*erTails(NeurIPS 2025)、大语言模型的安全对齐算法 SafeRLHF(ICLR 2025 Spotlight),相关技术已被多个开源模型采纳。撰写业内首个人工智能对齐的全面性综述并配套了资源网站 www.alignmentsurvey.com(点击原文可直接跳转),系统性的阐述了 Learning from Feedback、Learning under Distribution Shift,Assurance,Governance 四个视角下的 AI 对齐问题。该团队关于对齐与超对齐的观点被采编为 2025 年第 5 期《三联生活周刊》封面。
以上就是无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式的详细内容,更多请关注其它相关文章!
# ai
# 惠州站外seo费用
# 正规网站建设的功能
# 如何打造网站优化排名
# 杭州机械行业网站优化
# 漳州建设外贸公司网站
# 关键词排名计费
# 有名网站建设方案
# 成都青羊区网站建设
# 冠县俄语网站建设
# 实现了
# 中国科学院
# 提出了
# 这一
# 过程中
# 的是
# 相较
# 是一个
# 开源
# 北大
# llama
# claude
# 模型
# 工业网站推广方案
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景
AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者
看懂AI,找到增长新势能 | 笔记侠AI峰会等你来
微软面向AI初学者推出免费网络课程
加强高质量数据供应能力,促进通用人工智能大模型领域的创新
Zoom远程会议应用:AI培训需经用户授权
OpenAI夺冠:人工智能为云计算带来新变革
苹果头显降临,AI虚拟人的救星还是流星?
换流站无线物联网络为新型电力系统铺设“数字之路”
谷歌新安卓机器人logo曝光:头更大了
网易云音乐内测上线“私人DJ” 打造AI推荐音乐助手
电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC
第 66 届格莱美奖规定,AI 作品将无法获得评奖资格
微软商店 AI 摘要功能开启预览,帮助用户迅速了解应用评价
「从未被制造出的最重要机器」,艾伦·图灵及图灵机那些事
从数据中心到发电站:人工智能对能源使用的影响
亚马逊确认今年不会举办 re:MARS 机器人和人工智能大会
报道称亚马逊正在测试AI生成产品评价摘要
能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高
亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资
如布科技发布新产品AI口袋学习机S12
实现人工智能和物联网的协同运作
探索人工智能在居家养老方面的应用
自动驾驶汽车避障、路径规划和控制技术详解
南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台
无人机自主巡检为高海拔输电线路运维添“新彩”
WPS AI 官网上线:可申请体验官资格,支持 Windows、安卓端下载
兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机
央广车联网亮相2025世界人工智能大会
传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台
华为盘古AI模型实现秒级全球气象预报时间缩短
AI 冥想应用 Ogimi.ai 推出,可为用户提供教练级个性化指导
微盟宣布联合腾讯云共建行业大模型:加快激活AI大模型智能应用
常见的五个人工智能误解
石头扫拖机器人 G20 618 福利来袭:4999 元,超值配件领到手软
人工智能在交通领域的革新:智能解决方案彻底改变交通方式
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
人工智能领域,突破难题:国产大模型“无源之水”问题得到解决。
昆仑万维与全球领先的元宇宙公司Meta达成商务合作,共同认可昆仑万维在XR领域的技术实力
马斯克称人类是半机器人,记忆外包给了电脑
RoboNeo什么时候上线
MiracleVision视觉大模型上线时间
美军AI无人机“误杀”操作员,人工智能要在军事领域毁灭人类?
人工智能正在弥合认知和表达之间的鸿沟
软通动力多项AI创新产品及应用亮相2025世界人工智能大会
优化J*a与MySQL合作:分享批处理操作的技巧
阿里达摩院发布免费开放100项AI专利许可的动机是什么?
云鲸发布全新的扫拖机器人J4系列
史玉柱谈AI:国内最缺是计算数学人才,曾给浙大数学系捐五千万
国产工业机器人领域“暗潮涌动”,即将迎来新一轮复苏
2024-02-07
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。