LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

让 LLM 在自我进化时也能保持对齐。

我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足，就需要突破许多限制，包括可用数据和规模和质量以及有用新信息的增长率。

对基于 LLM 的 AI 来说，高质量的人类数据非常关键，但已有研究预计这些高质量数据将在未来几年耗尽。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
^{如果 LLM 保持现在的发展势头，预计在 2028 年（中位数）左右，已有的数据储量将被全部利用完，来自论文《Will we run out of data? Limits of LLM scaling based on human-generated data》}

此后，这类数据的质量也将停滞不前：随着 LLM 能力越来越强，它们将能解决越来越复杂和越来越多的难题，而这些难题所需的训练数据已经超出了人类的能力。

因此，我们就需要为 LLM 构建一种能使其实现自我提升的基本机制，让模型可以持续地自我生成和自我求解更困难的问题。

于是，问题就来了：语言模型能否自我创建可学习的新任务，从而实现自我改进以更好地泛化用于人类偏好对齐？

为了提升语言模型的对齐能力，人们已经提出了许多偏好优化算法，但它们都默认使用固定的提示词训练分布。这种固定的训练范式缺乏可扩展性，并不可避免地导致泛化问题和效率问题。

基于这些考虑，谷歌 DeepMind 和芝加哥大学一个研究团队开发了一种可扩展的开放式 RLHF 框架 eva，即 Evolving Alignment via Asymmetric Self-Play，也就是「通过非对称自博弈实现的演进式对齐」。

论文标题：evolving alignment via asymmetric self-play
论文地址：https://arxiv.org/pdf/2411.00062

eva 能让自我提升式语言模型的训练分布自动演进，如图 1 所示。

eva 的核心方法

在介绍 eva 的核心方法之前，我们需要先了解一些前提设置，这里截图如下：

概述地讲，eva 可通过一个创建器（creator）将经典 RLHF 扩展成开放式 RLHF，该创建器使用易于实现的估计、采样、进化程序来调整提示词的分布，模仿不对称自博弈的最小最大遗憾（minimax-regret）策略。

原理：用于联合自我提升的开放式 RLHF

直观说明

经典 RLHF 是在一个静态提示词分布上执行优化，这意味着智能体仅与固定的参考点对齐，这使得它难以对应不断变化的现实世界中的新问题。

新提出的开放式 RLHF 框架 eva 则打破了这个静态设置，其目标是开发出一种能很好地泛化到未曾见过的新环境的智能体。为此，该团队必须设计一个新的目标，而不仅仅是在一个固定数据集上执行优化。

形式化描述

π_φ (x) 是可优化的提示词生成策略，其会与响应策略 π_θ (y | x) 一起被联合优化，如下所示：

其中，p_ref (x) 表示所有可能任务（通过提示词实例化）的理想化的可能很难处理的概率，其可作为智能体可能遇到的任务的全部多样性和复杂性的概念参考，同时用作对齐的指导目标。此外，联合优化可确保任务分配和智能体的响应策略同步更新，从而适应日益复杂的任务，进而促进泛化。

机制：通过创建器和求解器博弈实现非对称自博弈

直观说明

由于未指定的参考很难处理以及联合微分存在不稳定问题，因此 (7) 式很难直接优化。为此，该团队提出了一种交替式的优化方案，其做法是将该问题表述成一个非对称的创建器 - 求解器博弈。

直观地讲，创建器可以通过复杂度不断增加的提示词例程来指导求解器，从而实现高效和一般性的学习，以处理现实任务的多样性。
从数学上看，这类似于通过期望最大化进行的 RL 优化，其中提示词分布的 φ 在每个步骤中都是固定的。

形式化描述

该团队将这种交替优化表述成了一种非对称博弈，如下所示：

创建器（Creator：提示词博弈者 π_X，其作用是策略性地为求解器生成提示词。
求解器（Solver：响应博弈者 π_{Y|X}（或 π），其作用是学习生成更符合偏好的响应。

该团队采用了 minimax regret 策略，其中求解器的目标是最小化后悔值，而创建器则是为了最大化这个值，即当前策略和最优策略之间的奖励之差为：

在纳什均衡下，之前已有研究表明：

然而，如果无法获得真正的最优策略，就必须近似后悔值。利用随机策略和奖励信号，该团队设计了基于优势的代理函数：

总之，eva 允许创建一个不断演进的提示词分布，其难度会随智能体的演进而逐步提升。新引入的 minimax regret 可进一步增加这种不断发展的例程的稳健性，其做法是激励智能体在所有情况下都表现良好。他们使用了信息量代理来指导学习。

总之，eva 是将对齐视为一种非对称博弈，其机制是创建器不断挑战求解器，而求解器则不断学习提升。

实际的算法

下面说明如何实际实现算法 1 中的 eva。

1. 创建器步骤：估计，采样，然后演进

显然，创建器会找到最有用的提示词并生成它们的变体，并将这些变体用于偏好优化。创建器的实现分为 3 步。

第 1 步：info (・)—— 估计信息量。对于提示集 X) t 中的每个 x，生成响应、注释奖励并通过 (10) 式估计 x 的信息量指标。
第 2 步：sample (・)—— 对富含信息的子集进行加权采样。使用信息量指标作为权重，对富含信息的提示词子集 X^info_t 进行采样，以便稍后执行演进。
神笔马良
神笔马良 - AI让剧本一键成片。
320 查看详情
第 3 步：evolve (・)—— 为高优势提示词执行近端区域演进。具体来说，迭代 X^info_t 中的每个提示词，让它们各自都演化为多个变体，然后（可选）将新生成的提示词与对 X_t 的均匀采样的缓存混合以创建 X′_t。

2. 求解器步骤：求解然后优化

此步骤是经典的偏好优化，其中生成响应并执行梯度下降。以逐点奖励模型设置为例，对于每个提示，采样 n 个响应，每个响应都带有奖励注释；这里采用最大和最小奖励的响应来构建偏好对，然后进行优化。

总之，eva 可以使用新的创建器模块统一现有的迭代优化工作流程，该模块可以与求解器策略共享相同的网络，也可独立运行。

实验结果

这里我们仅关注实验的主要结果，实验设置请参看原论文。

总体而言，eva 在对齐方面取得了显著的进步，同时无需依赖任何人工数据，因此更具效率。 LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

是基础设置，即一次迭代微调后的模型，eva 则会在此基础上添加一个创建器，以实现初始迭代的提示词集的自我演进，并使用一个偏好优化算法进行额外的开放式 RLHF 迭代，这会得到 LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

。

eva 能实现自我提升

如表 1 红色标记所示，eva 在不同优化算法中的表现显著优于基础设置，尤其是在更难的 Arena-Hard 基准上，该基准由于其提示词的复杂性和更公平的评分系统而被认为更具挑战性。

具体来说，eva 使用 SimPO 作为求解器时增益为 8.4%，使用 DPO 作为求解器时增益为 8.5%，超越了其 27B 版本并与 Arena-Hard 排行榜上报告的 claude-3-opus-240229 相当，同时还使用了全自动的提示词生成进行对齐。

eva 可以超越人工编写的提示词

实验进一步表明，使用 eva 提示词训练的模型

的表现能够比肩甚至超越那些使用了来自 UltraFeedback 的额外新提示词训练的模型 LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

，这可被视为是人类提示词。同时，前者还能做到成本更低，速度更快。

此外，在 MT-Bench 上，使用新的人类提示词进行训练通常会在第一轮中表现出性能下降，在第二轮中也只会有适度的提升。相比之下，eva 能显著提高第二轮的表现。

针对此现象，该团队给出了自己的假设：eva 可演化出全新的可学习的提示词，并且其中包含第二轮问题的特征，这表明 eva 涌现出了处理后续互动等新技能。

消融研究

为了验证 eva 各组件的有效性，该团队也执行了消融研究，下面我们简单给出其发现，详细实验过程请访问原论文：

信息量指标：新提出的基于后悔值的指标优于其它替代指标；
采样之后执行演化的流程：新方法优于贪婪选择方法；
使用奖励模型进行扩展：eva 的对齐增益会随奖励模型而扩展；
持续训练：新提出的方法可通过增量训练获得单调增益；eva 演化得到的数据和调度可用作隐式正则化器，从而实现更好的局部最小值。

以上就是LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题的详细内容，更多请关注其它相关文章！

# rlhf # seo实习日报 # 绥化抖音搜索seo # 快手推广营销怎么做 # 新媒体运营门户网站推广 # seo 小视频 # 花店网站建设的目标 # 吉林大米营销推广案例图 # 出了 # 第二轮 # 迭代 # 非对称 # 很难 # 是在 # 所示 # 解决了 # 该如何 # 这个问题 # type # opus # claude # ai # 谷歌 # eva # 工程 # 南湾外贸公司网站建设 # seo指向 # 南宁营销推广渠道

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-11-05

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。