通过算法层面的创新,未来大语言模型做数学题的水平会不断地提高。
这几天,17 岁中专生姜萍在 2025 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。而同时,AI 挑战赛的成绩显示,在所有 563 支 AI 参赛队伍中,最高分 34 分,平均分 18 分,赶上了人类选手平均水平。
AI 参与数学竞赛的主要短板是逻辑推理能力弱,证明题很难拿到完整得分点。这也是 GPT-4、LLaMA 等当前大语言模型(LLM)在需要策略和逻辑推理的任务中面临的重大挑战。
其中的一个重要障碍是输出的准确性和可信度,尤其是在需要保证精度的数学上下文中,LLM 在推理时往往产生幻觉。输出结果表面上看似合理,但实际上不相关或事实不确,最终导致不合理的推理过程。
自然像自我提炼这样的重写技术有助于解决这种偏向,但依然可能导致现实世界复杂的数学问题产生误导性或错误的结果。
因此,为了应对这些挑战,来自复旦大学、上海 AI Lab 的研究者提出了 MCT Self-Refine(MCTSr),将 LLM 与蒙特卡洛树搜索(MCTS)算法相结合,并重点提高 LLM 在复杂数学推理任务(比如奥数竞赛题)中的表现。
MCTS是一种决策工具,广泛应
用于人工智能中需要战略规划的场景,通常用于游戏和复杂的问题解决环境。本文通过将MCTS的系统探索能力与LLM的Self-Refine和Self-Evaluation能力相结合,旨在创建一个更强大的框架来应对当前LLM难以解决的复杂推理任务。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文地址:https://arxiv.org/pdf/2406.07394
项目地址:https://github.com/trotsky1997/MathBlackBox
不过,在将 MCTS 与 LLM 集成过程中存在一些技术挑战。传统的 MCTS 策略可能与 LLM 输出的随机性和生成性不太吻合,后者通常涉及无限、连续的潜在动作空间。这种不一致需要在 MCTS 框架内采用定制的期望计算和反向传播方法,以更好地适应 LLM 的特有属性。
此外,研究者还引入了一种动态剪枝策略,它结合了改进的置信上限(UCB)公式,以优化高风险任务中有效决策制定所需要的探索 - 利用平衡。
可以说,这项研究推进了 LLM 在复杂推理挑战中的应用,为未来整合 AI 相关的技术创新奠定了基础,从而使得 LLM 驱动的应用拥有了更强大的决策制定、推理准确性和可靠性。
方法概览
MCTSr 架构图如图 1 所示:
MCTSr 工作流包括:
初始化:使用模型生成的答案和虚拟响应建立根节点,以最大限度地减少模型过度拟合趋势;
选择:该算法采用值函数 Q 对所有未完全展开的答案进行排序,并采用贪心策略选择值最高的节点进行进一步的探索和优化;
Self-Refine :选择好的答案 a 使用 Self-Refine 框架进行优化。最初,模型生成反馈 m,指导优化过程以产生增强的答案 a ′;
Self-Evaluation:精炼后的答案经过评分从而采样一个奖励值,并计算其 Q 值。这涉及模型自我奖励反馈和约束,如严格的评分标准和抑制满分,以确保评分的可靠性和公平性;
反向传播:将精炼答案的值反向传播到其父节点和其他相关节点,以更新树的值信息。如果任何子节点的 Q 值发生变化,则更新父节点的 Q;
UCT 更新:在所有节点的 Q 值更新完成后,确定一个候选节点集合 C,用于进一步扩展或选择,然后使用 UCT 更新公式更新所有节点的 UCT 值,以备下一步的选择阶段。
迭代上述阶段,直到满足终止条件 T 为止。
Self-Refine
在 self-refine 阶段, 模型通过多轮对话完善提示来优化针对问题 P 的答案 a。首先,模型生成一个关于答案 a 的反思性或批判性评论 m。随后,在 m 的指导下,模型修改答案 a,产生一个改进版本 a',这种迭代的精炼方式提高了模型响应质量。
自评估
在数学问题 P 的答案精炼过程中,一个答案 a 的 Q 值被定义为将 a 进一步精炼成更优答案的预期质量。这个定义是基于从 a 到其重写形式的转换具有马尔可夫性质,即下一个状态(即改写后的答案)仅依赖于当前状态(即当前的答案 a),而与之前的状态无关。
此外,研究者还设计了三个约束:提示约束、满分抑制、重复采样。采样后,计算 a 的 Q 值。

反向传播
在所有叶节点的奖励值经过采样和 Q 值更新完成后,然后将这些变化传播至其父节点和祖节点。在这个更新过程中,如果节点 a 的子节点集合 Children (a) 中任何元素的 Q 函数值发生变化,那么节点 a 的 Q 函数值也将进行更新。这样的传播确保了节点的 Q 值能够反映其所有可能子节点的最新状态和评估。

码上飞
码上飞(CodeFlying) 是一款AI自动化开发平台,通过自然语言描述即可自动生成完整应用程序。
430
查看详情
更新 UCT 和选择
在更新了树中所有节点的 Q 值之后,会进入下一轮选择阶段。这个过程包括以下步骤:
候选节点选择:在选择节点时,研究者无需从根节点开始,而是按层次顺序遍历树中的节点。
UCT 更新:借鉴 AlphaGo,该研究使用 UCT 和 UCB-1 方法来平衡节点的探索和利用;对于候选集 C 中的节点 a,其 UCT_a 值为:

终止函数
提前终止:当搜索结果的改进开始减少或连续搜索产生重复结果时,终止发生。
搜索约束:一旦展开次数达到预定限制或树中的一个或多个节点满足最大深度约束,搜索就会终止。
实验结果
为了评估 MCTSr 算法在解决数学问题中的有效性,研究者将 LLaMA3-8B 作为基础模型,并使用 MCTSr 进行增强。他们在 Zero-Shot CoT、Self-Refine、4-rollouts MCTSr 和 8-rollouts MCTSr 等几种设置中,将 LLaMA3-8B 与 GPT-4、Claude 3 和 Gemini 1.5-Pro 等进行了比较。
研究者在 GSM8K 和 GSM-hard 测试集(它们分别包含了典型和具有挑战性的数学问题)上评估了上述方法,结果如下表 1 所示。
可以发现,MCTSr 的 rollout 次数与成功率之间存在着直接相关性,并随着迭代次数增加而显著提升,在不太复杂的 GSM8K 中尤为明显。不过对于更复杂的 GSM-Hard 测试集,即使 rollout 次数更高也会达到性能上限,表明当前策略在解决复杂问题时存在局限性。
这些结果强调了 MCT-Self-refine 算法的稳健性和潜在边界,以及持续改进的必要性,从而有效应对更复杂的挑战。

下表 2 展示了在 MATH 数据集上应用不同复杂度级别的 MCT-Self-refine 算法的结果。数据集分为五个难度级别,从 Level 1(最简单)到 Level 5(最具挑战性)。
结果显示,Level 1 的成功率最高,8 次 rollout 后,MCTSr 实现了 90.16% 的成功率,解决了 437 个问题中的 394 个。随着 rollout 次数的增加,这一级别的成功率显著提高。
在最具挑战性的 Level 5 难度,8 次 rollout 后,MCTSr 的成功率为 34.06%,解决了 1324 个问题中的 451 个。这说明了随着难度不断增加,该算法在高度复杂的场景中性能受到限制。
所有级别的整体性能显示,8 次 rollout 后,MCTSr 的累计成功率为 58.24%,解决了 5000 个问题中的 2912 个。这一成功率相较于 Zero-Shot CoT 的初始成功率 24.36% 有了显著提高。这表明了,rollout 次数的增加与成功率的提高呈现出一致性,强调了 MCT-Self-refine 算法在提升不同数学复杂度级别的问题解决能力方面的有效性。
这些结果还验证了 MCT-Self-refine 算法在学术和问题解决上下文中的潜力,并强调了其对 MATH 数据集中不同复杂度级别问题的可扩展性和适应性。

下表 3 为 MCT-Self-refne 算法在奥数竞赛的三个数据集上进行了测试:AlME、GAIC Math Odyssey 和 OlympiadBench。
AIME:从 Zero-Shot CoT 的 2.36%(解决 22 个问题)到 MCTSr 的 11.79%(解决 110 个问题)。
GAIC Math Odyssey:成功率从 17.22%(解决 67 个问题)上升至 49.36%(解决 192 个问题)。
OlympiadBench:从 Zero-Shot CoT 的 1.25%(解决 16 个问题)提高到 MCTSr 的 7.76%(解决 99 个问题)。
这些结果证实了 MCT-Self-refine 算法在未见过的数学问题上的适用性,表明其在奥林匹克等竞争性学术环境中具有优势。

如表 4 所示。与当前闭源大模型进行比较时,MCTSr 可以有效提升小参数开源模型(如 LLaMa-3)的数学推理能力到相当的水平。

更多技术细节和实验结果请参阅原论文。
以上就是大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4的详细内容,更多请关注其它相关文章!
# 这一
# 深圳淘宝 网站推广
# seo快速推广快照
# 常熟网站建设销售
# 写字楼营销活动推广方案
# 云溪关键词排名
# 何网站推广孕云速捷必认
# 建设商务网站的特点
# 找不到关键词排名
# 网站流量推广专家
# 营销推广公司模式
# 不太
# 过程中
# 下表
# 工程
# 所示
# 卡洛
# 直逼
# 奥数
# 蒙特
# 一招
# type
# llama
# claude
# gemini
# git
# mctsr
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地
机智云AI离线语音识别模组,让家电变得更加智能便捷
苹果CEO库克:持续研究生成式人工智能技术
ChatGPT会成为你家新的语音助手吗?
中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员
AI大举入侵内容行业,哪些上市*及动漫公司进行了布局?
这款在《自然通讯》发表的机器人,为变形金刚来到现实创造可能性
人工智能助力精准学习,猿辅导小猿学练机满足学生个性化学习需求
如何利用物联网技术提高企业生产线智能化水平,提升生产效率
以分布式网络串联闲置GPU,这家创企称可将AI模型训练成本降低90%
WHEE安装教程
旷视入选北京市通用人工智能产业创新伙伴计划
定义人工智能的十个关键术语
全国青少年无人机大赛重庆市选拔赛开赛 1252名中小学生参加
昌吉市利用无人机实现全天候河道动态巡检
禁止艺术家使用 AI 创作《龙与地下城》游戏插图的决定已在 D&D Beyond 生效
从医疗康复外骨骼到通用人形机器人,傅利叶智能推动核心技术升级
字节、网易相继入局,AI之后大厂又找到下一个风口?
美图设计室2.0使用教程
支持跨语言、人声狗吠互换,仅利用最近邻的简单语音转换模型有多神奇
AI大模型时代,数据存储新基座助推教科研数智化跃迁
深剖Apple Vision Pro中暗藏的“AI”
微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在
磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元
1.6亿美元收购Singularity AI,昆仑万维布局通用人工智能
传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台
苹果机器学习关键人物 Ali Farhadi 离职,回归 AI2 担任 CEO
生成式AI对云运维的3大挑战
优傲机器人的人机协作技术 助力中小企发展
扎克·施奈德新片《月球叛军》曝剧照 机器人首度现身
中国联通发布图文AI大模型,可实现以文生图、视频剪辑
大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战
《共同的演化》展览启幕,重新思考人类与人工智能关系
联想创投携手12家被投企业MWC展示元宇宙、机器人等技术
深度学习模型综述:用于3D MRI和CT扫描的应用
这效果能打几分?AI真人化《名侦探柯南》
成都大运会闭幕式引入人形机器人展示表演
三个全球首创,青岛西海岸新区“海元宇宙”亮相世界人工智能大会
看懂AI,找到增长新势能 | 笔记侠AI峰会等你来
焊接协作机器人或将成为26届埃森展最大看点
MetaGPT AI 模型开源:可模拟软件公司开发过程,生成高质量代码
引领AI变革,九章云极DataCanvas公司重磅发布AIFS+DataPilot
酒店业将如何受益于人工智能的改变?
生成式AI爆发,亚马逊云科技持续专注创新,助力企业数字化转型
人工智能:解决劳动力短缺的关键策略
击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞
马斯克反讽人工智能AI炒作:“机器学习”本质就是统计
抖音在Android平台获得VR|直播|软件著作权
7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会
“苏南 vs 苏北” AI 分胜负,娱乐性比较工具 EitherChoice 上线
2024-06-18
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。