LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题


让 LLM 在自我进化时也能保持对齐。

我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足,就需要突破许多限制,包括可用数据和规模和质量以及有用新信息的增长率。

对基于 LLM 的 AI 来说,高质量的人类数据非常关键,但已有研究预计这些高质量数据将在未来几年耗尽。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题如果 LLM 保持现在的发展势头,预计在 2028 年(中位数)左右,已有的数据储量将被全部利用完,来自论文《Will we run out of data? Limits of LLM scaling based on human-generated data》

此后,这类数据的质量也将停滞不前:随着 LLM 能力越来越强,它们将能解决越来越复杂和越来越多的难题,而这些难题所需的训练数据已经超出了人类的能力。

因此,我们就需要为 LLM 构建一种能使其实现自我提升的基本机制,让模型可以持续地自我生成和自我求解更困难的问题。

于是,问题就来了:语言模型能否自我创建可学习的新任务,从而实现自我改进以更好地泛化用于人类偏好对齐?

为了提升语言模型的对齐能力,人们已经提出了许多偏好优化算法,但它们都默认使用固定的提示词训练分布。这种固定的训练范式缺乏可扩展性,并不可避免地导致泛化问题和效率问题。

基于这些考虑,谷歌 DeepMind 和芝加哥大学一个研究团队开发了一种可扩展的开放式 RLHF 框架 eva,即 Evolving Alignment via Asymmetric Self-Play,也就是「通过非对称自博弈实现的演进式对齐」
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
  • 论文标题:evolving alignment via asymmetric self-play

  • 论文地址:https://arxiv.org/pdf/2411.00062

eva 能让自我提升式语言模型的训练分布自动演进,如图 1 所示。
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
eva 的核心方法

在介绍 eva 的核心方法之前,我们需要先了解一些前提设置,这里截图如下:
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
概述地讲,eva 可通过一个创建器(creator)将经典 RLHF 扩展成开放式 RLHF,该创建器使用易于实现的估计、采样、进化程序来调整提示词的分布,模仿不对称自博弈的最小最大遗憾(minimax-regret)策略。
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
原理:用于联合自我提升的开放式 RLHF

直观说明

经典 RLHF 是在一个静态提示词分布上执行优化,这意味着智能体仅与固定的参考点对齐,这使得它难以对应不断变化的现实世界中的新问题。

新提出的开放式 RLHF 框架 eva 则打破了这个静态设置,其目标是开发出一种能很好地泛化到未曾见过的新环境的智能体。为此,该团队必须设计一个新的目标,而不仅仅是在一个固定数据集上执行优化。

形式化描述

π_φ (x) 是可优化的提示词生成策略,其会与响应策略 π_θ (y | x) 一起被联合优化,如下所示:
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
其中,p_ref (x) 表示所有可能任务(通过提示词实例化)的理想化的可能很难处理的概率,其可作为智能体可能遇到的任务的全部多样性和复杂性的概念参考,同时用作对齐的指导目标。此外,联合优化可确保任务分配和智能体的响应策略同步更新,从而适应日益复杂的任务,进而促进泛化。

机制:通过创建器和求解器博弈实现非对称自博弈

直观说明

由于未指定的参考很难处理以及联合微分存在不稳定问题,因此 (7) 式很难直接优化。为此,该团队提出了一种交替式的优化方案,其做法是将该问题表述成一个非对称的创建器 - 求解器博弈。
  • 直观地讲,创建器可以通过复杂度不断增加的提示词例程来指导求解器,从而实现高效和一般性的学习,以处理现实任务的多样性。

  • 从数学上看,这类似于通过期望最大化进行的 RL 优化,其中提示词分布的 φ 在每个步骤中都是固定的。

形式化描述

该团队将这种交替优化表述成了一种非对称博弈,如下所示:
  • 创建器(Creator:提示词博弈者 π_X,其作用是策略性地为求解器生成提示词。 

  • 求解器(Solver:响应博弈者 π_{Y|X}(或 π),其作用是学习生成更符合偏好的响应。

该团队采用了 minimax regret 策略,其中求解器的目标是最小化后悔值,而创建器则是为了最大化这个值,即当前策略和最优策略之间的奖励之差为:
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
在纳什均衡下,之前已有研究表明:
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
然而,如果无法获得真正的最优策略,就必须近似后悔值。利用随机策略和奖励信号,该团队设计了基于优势的代理函数:
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
总之,eva 允许创建一个不断演进的提示词分布,其难度会随智能体的演进而逐步提升。新引入的 minimax regret 可进一步增加这种不断发展的例程的稳健性,其做法是激励智能体在所有情况下都表现良好。他们使用了信息量代理来指导学习。

总之,eva 是将对齐视为一种非对称博弈,其机制是创建器不断挑战求解器,而求解器则不断学习提升。

实际的算法

下面说明如何实际实现算法 1 中的 eva。

1. 创建器步骤:估计,采样,然后演进

显然,创建器会找到最有用的提示词并生成它们的变体,并将这些变体用于偏好优化。创建器的实现分为 3 步。
  • 第 1 步:info (・)—— 估计信息量。对于提示集 X) t 中的每个 x,生成响应、注释奖励并通过 (10) 式估计 x 的信息量指标。

  • 第 2 步:sample (・)—— 对富含信息的子集进行加权采样。使用信息量指标作为权重,对富含信息的提示词子集 X^info_t 进行采样,以便稍后执行演进。

    神笔马良 神笔马良

    神笔马良 - AI让剧本一键成片。

    神笔马良 320 查看详情 神笔马良
  • 第 3 步:evolve (・)—— 为高优势提示词执行近端区域演进。具体来说,迭代 X^info_t 中的每个提示词,让它们各自都演化为多个变体,然后(可选)将新生成的提示词与对 X_t 的均匀采样的缓存混合以创建 X′_t。

2. 求解器步骤:求解然后优化

此步骤是经典的偏好优化,其中生成响应并执行梯度下降。以逐点奖励模型设置为例,对于每个提示,采样 n 个响应,每个响应都带有奖励注释;这里采用最大和最小奖励的响应来构建偏好对,然后进行优化。

总之,eva 可以使用新的创建器模块统一现有的迭代优化工作流程,该模块可以与求解器策略共享相同的网络,也可独立运行。

实验结果

这里我们仅关注实验的主要结果,实验设置请参看原论文。

总体而言,eva 在对齐方面取得了显著的进步,同时无需依赖任何人工数据,因此更具效率。LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题是基础设置,即一次迭代微调后的模型,eva 则会在此基础上添加一个创建器,以实现初始迭代的提示词集的自我演进,并使用一个偏好优化算法进行额外的开放式 RLHF 迭代,这会得到LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
eva 能实现自我提升

如表 1 红色标记所示,eva 在不同优化算法中的表现显著优于基础设置,尤其是在更难的 Arena-Hard 基准上,该基准由于其提示词的复杂性和更公平的评分系统而被认为更具挑战性。

具体来说,eva 使用 SimPO 作为求解器时增益为 8.4%,使用 DPO 作为求解器时增益为 8.5%,超越了其 27B 版本并与 Arena-Hard 排行榜上报告的 claude-3-opus-240229 相当,同时还使用了全自动的提示词生成进行对齐。
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
eva 可以超越人工编写的提示词

实验进一步表明,使用 eva 提示词训练的模型图片的表现能够比肩甚至超越那些使用了来自 UltraFeedback 的额外新提示词训练的模型LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题,这可被视为是人类提示词。同时,前者还能做到成本更低,速度更快。

此外,在 MT-Bench 上,使用新的人类提示词进行训练通常会在第一轮中表现出性能下降,在第二轮中也只会有适度的提升。相比之下,eva 能显著提高第二轮的表现。

针对此现象,该团队给出了自己的假设:eva 可演化出全新的可学习的提示词,并且其中包含第二轮问题的特征,这表明 eva 涌现出了处理后续互动等新技能。

消融研究

为了验证 eva 各组件的有效性,该团队也执行了消融研究,下面我们简单给出其发现,详细实验过程请访问原论文:
  • 信息量指标:新提出的基于后悔值的指标优于其它替代指标;

  • 采样之后执行演化的流程:新方法优于贪婪选择方法;

  • 使用奖励模型进行扩展:eva 的对齐增益会随奖励模型而扩展;

  • 持续训练:新提出的方法可通过增量训练获得单调增益;eva 演化得到的数据和调度可用作隐式正则化器,从而实现更好的局部最小值。

以上就是LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题的详细内容,更多请关注其它相关文章!


# rlhf  # seo实习日报  # 绥化抖音搜索seo  # 快手推广营销怎么做  # 新媒体运营门户网站推广  # seo 小视频  # 花店网站建设的目标  # 吉林大米营销推广案例图  # 出了  # 第二轮  # 迭代  # 非对称  # 很难  # 是在  # 所示  # 解决了  # 该如何  # 这个问题  # type  # opus  # claude  # ai  # 谷歌  # eva  # 工程  # 南湾外贸公司网站建设  # seo指向  # 南宁营销推广渠道 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会  广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建  生活垃圾智能分类机器人社区展“才能”,征求居民意见  苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO  扎克·施奈德新片《月球叛军》曝剧照 机器人首度现身  联想举办2025创新开放日,展出260余项算力及AI产品技术  智能电网技术:提高能源效率和可靠性  OPPO三方联合发布AI可持续发展白皮书,坚持发展健康AI生态  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  编程已死,AI 当立?教授公开“唱反调”:AI 还帮不了程序员  从数据中心到发电站:人工智能对能源使用的影响  《上古卷轴5》AI高清材质包优化游戏中所有怪物  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  泗洪:畅通城市“血管” ,管下机器人来帮忙  Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%  GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了  美的推出 AI 双视精准避障的自动集尘扫拖机器人 V12,售价仅为2999元  厂商陆续公布AI进展 完美世界游戏展示复合应用AI in GamePlay  马斯克:将来机器人比人类多!特斯拉机器人亮相人工智能大会  朝鲜出现国产大型察打一体无人机,实力世界第二,太意外了  华为昇腾AI原生支持30多种基础大模型,包括GPT  Meta Quest订阅服务每月7.99美元畅玩两款VR游戏应用  中美陷入囚徒困境,人工智能变得不可控?可参考核不扩散条约规范  人工智能正在弥合认知和表达之间的鸿沟  国内阅读行业首款对话式AI应用“阅爱聊”封闭内测  探索人工智能和物联网的动态融合  央视报道!星纪魅族集团车载人机交互技术成世界移动通信大会焦点  陈根:AI冥想教练为用户提供个性化指导  人工智能大胆预测:银河系至少有2万个地球,36种外星文明  独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机  如何用AI重塑你的工作流(一)  1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能  发布最新版本的 PICO OS 5.7.0:支持VR头盔录屏并跨平台分享至微信  郭帆导演成功利用AI技术制作的《流浪地球3》预告片在央视热播,引发巨大反响  人形机器人概念集体爆发,能买吗?  IBM将模拟计算用于人工智能,重塑AI计算  MIT开发“PhotoGuard”技术保护图像免遭恶意AI编辑  美踏控股推出创新人工智能大数据模型“心乐舞河”:虚拟人音舞社交的新体验  深剖Apple Vision Pro中暗藏的“AI”  【搞事】时隔4年 谷歌更新安卓logo 机器人头更饱满了  清华朱军团队新作:使用4位整数训练Transformer,比FP16快2.2倍,提速35.1%,加速AGI到来!  Nature封面:量子计算机离实际应用还有两年  利亚德加码AI战略,与光年无限图灵机器人全面开展AI研发业务合作  最大助力35公斤 外骨骼机器人或在养老、医疗领域“大展身手”  苹果AIGC专利:可通过语音指令生成AR/VR虚拟场景  Stability AI 推出文生图模型 SDXL0.9,GPU要求下探至消费级水平  航拍无人机怎么选?大疆无人机盘点推荐  如布科技发布新产品AI口袋学习机S12  五款 AI 网站构建器,任何人都能快速构建网站  机构:边缘AI或是当前预期差最大的AI方向 

 2024-11-05

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.