在一项最新的研究中,来自 uw 和 meta 的研究者提出了一种新的解码算法,将 alphago 采用的蒙特卡洛树搜索算法(monte-carlo tree search, mcts)应用到经过近端策略优化(proximal policy optimization, ppo)训练的 rlhf 语言模型上,大幅提高了模型生成文本的质量。
☞☞☞AI 智能聊天, 问答助手,
AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

PPO-MCTS 算法通过探索与评估若干条候选序列,搜索到更优的解码策略。通过 PPO-MCTS 生成的文本能更好满足任务要求。

论文链接:https://arxiv.org/pdf/2309.15028.pdf
面向大众用户发布的 LLM,如 GPT-4/Claude/LLaMA-2-chat,通常使用 RLHF 以向用户的偏好对齐。PPO 已经成为上述模型进行 RLHF 的首选算法,然而在模型部署时,人们往往采用简单的解码算法(例如 top-p 采样)从这些模型生成文本。
本文的作者提出采用一种蒙特卡洛树搜索算法(MCTS)的变体从 PPO 模型中进行解码,并将该方法命名为 PPO-MCTS。该方法依赖于一个价值模型(value model)来指导最优序列的搜索。因为 PPO 本身即是一种演员 - 评论家算法(actor-critic),故而会在训练中产生一个价值模型作为其副产品。
PPO-MCTS 提出利用这个价值模型指导 MCTS 搜索,并通过理论和实验的角度验证了其效用。作者呼吁使用 RLHF 训练模型的研究者和工程人员保存并开源他们的价值模型。
PPO-MCTS 解码算法
为生成一个 token,PPO-MCTS 会执行若干回合的模拟,并逐步构建一棵搜索树。树的节点代表已生成的文本前缀(包括原 prompt),树的边代表新生成的 token。PPO-MCTS 维护一系列树上的统计值:对于每个节点 s,维护一个访问量
和一个平均价值
;对于每条边
,维护一个 Q 值
。

五回合模拟结束时的搜索树。边上的数量代表该边的访问量。
树的构建从一个代表当前 prompt 的根结点开始。每回合的模拟包含以下四步:
1. 选择一个未探索的节点。从根结点出发,根据以下 PUCT 公式选择边向下前进,直到到达一个未探索的节点:

该公式偏好拥有高 Q 值与低访问量的子树,因而能较好平衡 exploration 和 exploitation。
2. 展开上一步中选择的节点,并通过 PPO 的策略模型(policy model)计算下一个 token 的先验概率
。
3. 评估该节点的价值。该步使用 PPO 的价值模型进行推断。该节点及其子边上的变量初始化为:

4. 回溯并更新树上的统计值。从新探索的节点开始向上回溯直至根结点,并更新路径上的以下变量:


每回合模拟的四个步骤:选择、展开、评估、回溯。右下为第 1 回合模拟结束后的搜索树。
若干回合的模拟结束后,使用根结点子边的访问量决定下一个 token,访问量高的 token 被生成的概率更高(这里可以加入温度参数来控制文本多样性)。加入了新 token 的 prompt 作为下一阶段搜索树的根结点。重复这一过程直至生成结束。

Voicepods
Voicepods是一个在线文本转语音平台,允许用户在30秒内将任何书面文本转换为音频文件。
142
查看详情
第 2、3、4、5 回合模拟结束后的搜索树。
相比于传统的蒙特卡洛树搜索,PPO-MCTS 的创新之处在于:
1. 在选择步骤的 PUCT 中,使用 Q 值
替代了原版本中的平均价值
。这是因为 PPO 在每个 token 的奖励
中含有一个 action-specific 的 KL 正则化项,使策略模型的参数保持在信任区间内。使用 Q 值能够在解码时正确考虑这个正则化项:

2. 在评估步骤中,将新探索节点子边的 Q 值初始化为该节点的评估价值(而非原版本 MCTS 中的零初始化)。该更改解决了 PPO-MCTS 退化成完全 exploitation 的问题。
3. 禁止探索 [EOS] token 子树中的节点,以避免未定义的模型行为。
文本生成实验
文章在四个文本生成任务上进行了实验,分别为:控制文本情绪(sentiment steering)、降低文本毒性(toxicity reduction)、用于问答的知识自省(knowledge introspection)、以及通用的人类偏好对齐(helpful and harmless chatbots)。
文章主要将 PPO-MCTS 与以下基线方法进行比较:(1)从 PPO 策略模型采用 top-p 采样生成文本(图中的「PPO」);(2)在 1 的基础上加入 best-of-n 采样(图中的「PPO + best-of-n」)。
文章评测了各方法在每个任务上的目标完成率(goal satisfaction rate)以及文本流畅度(fluency)。

左:控制文本情绪;右:降低文本毒性。
在控制文本情绪中,PPO-MCTS 在不损害文本流畅度的情况下,目标完成率比 PPO 基线高出 30 个百分点,在手动评测中的胜率也高出 20 个百分点。在降低文本毒性中,该方法的生成文本的平均毒性比 PPO 基线低 34%,在手动评测中的胜率也高出 30%。同时注意到,在两个任务中,运用 best-of-n 采样并不能有效提高文本质量。

左:用于问答的知识自省;右:通用的人类偏好对齐。
在用于问答的知识自省中,PPO-MCTS 生成的知识之效用比 PPO 基线高出 12%。在通用的人类偏好对齐中,文章使用 HH-RLHF 数据集构建有用且无害的对话模型,在手动评测中胜率高出 PPO 基线 5 个百分点。
最后,文章通过对 PPO-MCTS 算法的分析和消融实验,得出以下结论支持该算法的优势:
PPO 的价值模型比用于 PPO 训练的奖励模型(reward model)在指导搜索方面更加有效。
对于 PPO 训练出的策略和价值模型,MCTS 是一个有效的启发式搜索方法,其效果优于一些其它搜索算法(如 stepwise-value decoding)。
PPO-MCTS 比其它提高奖励的方法(如使用 PPO 进行更多次迭代)具有更好的 reward-fluency tradeoff。
总结来说,本文通过将 PPO 与蒙特卡洛树搜索(MCTS)进行结合,展示了价值模型在指导搜索方面的有效性,并且说明了在模型部署阶段用更多步的启发式搜索换取更高质量生成文本是一条可行之路。
更多方法和实验细节请参阅原论文。封面图片由 DALLE-3 生成。
以上就是RLHF与AlphaGo核心技术强强联合,UW/Meta让文本生成能力再上新台阶的详细内容,更多请关注其它相关文章!
# 卡洛
# 紫金房产网站建设
# 越南餐饮推广员招聘网站
# 外贸推广网站收费
# 新网站建设后的优化策略
# 网站建设 开题报告
# 项城百度网站推广
# 关键词排名前十不会曝光
# 余杭网站建设哪家专业好
# 网站建设的要哪些费用
# 府谷县网站推广
# 是一个
# 理论
# 中国科学院
# 蒙特
# 子树
# 高出
# 新台阶
# 再上
# 核心技术
# 强强联合
# llama
# claude
# dalle
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台
腾讯自主研发机器狗 Max 升级,可“奔跑跳跃”完成避障动作
小米9号员工李明宣布创业:打造首款安卓桌面机器人
亚马逊CEO:人工智能将成为公司未来战略的重中之重
OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作
时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了
机器人 展才能
用人工智能技术,亚马逊为用户生成产品评论摘要,帮助他们轻松选购
拓普龙7188ML:轻便壁挂式工控机箱,为人工智能应用场景提供有力保障
湖北科技职业学院举行工业机器人及智能制造技术专精特新产业学院建设启动仪式
阿里云全面支持Llama2训练部署,助力企业快速构建自有大型模型
元宇宙迈入2.0时代,它和生成式人工智能有何关联吗?
苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO
“世界上最像人的机器人”接入 Stable Diffusion ,现场完成作画
类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练
以计算机视觉技术为基础的库存管理如何改革零售行业
消息称字节机器人团队已有约50人,计划年底扩充到上百人
印象笔记开放旗下“印象 AI”,可一键生成思维导图、写文章等
英特尔张宇:边缘计算在整个AI生态系统中扮演重要角色
小艺主导智慧交互升级,借助AI大模型增强能力
五个IntelliJ IDEA插件,高效编写代码
学而思网校推出首个基于自研大模型的《人工智能第一课》
DreamAvatar数字人使用教程
腾讯机器狗进化:通过深度学习掌握自主决策能力
苹果CEO库克:持续研究生成式人工智能技术
乐天派桌面机器人加入小米米家生态系统,实现与其他智能设备的互联
提升工作效率的智能工具:Zapier 让工作变得更简单!
再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手
数字彩排、虚拟建厂!这家顶级洗衣机工厂敲开“工业元宇宙”之门
图灵奖得主Hinton:我已经老了,如何控制比人类更聪明的AI交给你们了
DreamAvatar数字人在哪里下载
GPT-4是如何工作的?哈佛教授亲自讲授
广州团建公司方案 | 绝密飞行 → X-PLANE无人机团建主题团建
昇思开源社区理事会成立,基于昇思AI框架的全模态大模型“紫东.太初2.0”发布
抢占新赛道 加快机器人产业集聚发展
阿里云AI绘画创作大模型通义万相发布 已开启定向邀测
Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam
人工智能时代 数字文明对话向“尼”走来
用AI升级会议体验!思必驰多款会议产品亮相全球智博会!
严打“黑飞”,无人机检测反制设备护航大运会净空安全
独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机
“具身智能”引爆机器人产业,看绝影Lite3/X20四足机器人有何特别之处?
改变城市交通:智慧城市中的智能交通
硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲
调查:过半数艺术家认为 AI 作图无法帮助他们的工作
亲身体验鸿蒙4:AI大模型带来的便利,告别单纯的旁观者状态
Nature发AIGC禁令!投稿中视觉内容使用AI的概不接收
马克龙密会AI专家,法国加入全球人工智能竞赛
WPS AI 官网上线:可申请体验官资格,支持 Windows、安卓端下载
如何对员工进行再培训以充分利用供应链管理中的人工智能创新
2023-10-27
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。