自古以来,工具的使用被视为区分人与其他物种的一大区别,也被视为是智能的一种根本体现。而当下,人工智能已不再局限于对工具的简单使用,它们已然能够根据问题创造性地建立自己的工具来寻求解决方案。在思维上,这代表着当下大模型已经能够掌握更高层次的抽象思维认知,并将其与具象思维划分,共同解决问题;而在能力上,工具创造的出现也意味着模型已经能够从 “学习” 中蜕变,去运用已知 “创造” 未来的无限可能。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
近年来,大规模语言模型(Large Language Models)取得了显著的研究进展,包括 GPT-3、Codex、PaLM、LLaMA、ChatGPT 和最近发布的 GPT-4 等。这些模型在上下文学习(In-Context Learning)、代码生成(Code Generation)和各种其他自然语言处理任务方面表现出色,将模型的潜力进一步推向了通用人工智能。
尽管大模型在这些取得了巨大的成功,其当下仍然存在很多短板,包括无法识别或回答最新的实时信息、很难在大规模的数据计算上达到高准确性,在题干逻辑复杂时推理能力不稳定等等。针对这些短板,研究者开始致力于向当前模型架构中引入对外部资源的利用能力,例如引入计算器,问答系统,维基百科等等外部知识源,来增强模型能力。这一系列研究奠定了模型工具学习(Tool Learning)能力的基础。
然而,当下研究中利用的外部工具数量仍然有限,而在潜在的新任务类型几乎是无尽的。因此,在面对新的问题类型时,很难找到现有的适合解决问题的工具。此外,即使提供了有效的可利用的工具,模型需要在工具包文档中进行海量搜索、匹配并针对问题进行针对性地规划。这将给模型带来很大的认知负担,并需要较高的学习成本。
因此,研究团队提出了全新的一种研究范式:工具创造(Tool Creation)。其不再是简单利用大模型使用工具的能力,而是加入了全新的工具创造模块,让模型针对所面对的问题进行工具创造并寻求解决方案。
利用大模型创造工具能够提高工具的普适性、可复用性和多样性,超越给定 API 的限制。工具创造模块的设计还可以减轻大模型的认知负担,并解耦其进行抽象推理(创建可推广的具有普适性的工具)和具象推理(根据工具实现细节和工具使用文档进行决策)的能力。同时,该框架下模型以代码作为工具创造的媒介,这使得模型对于错误更加敏感,并能根据工具创造与使用中的问题进行回溯与修正。

工具创造范式相比工具使用更加灵活并对不同场景有更强的适应能力
大模型进行工具创造来解决问题的框架 CREATOR 主要分为了以下四个阶段:

大模型进行工具创造与决策的流程框架
大模型首先将根据问题创造所需要的工具以及其相关使用说明;此后,问题内容以及工具信息将同时再次返回给大模型,用以决策针对本问题的解决方案,以及如何使用这些工具。此后,模型将根据执行情况对工具及决策做出调整,以更好地适应问题并寻求解答。
整个工具创造框架灵活运用了大模型的不同思维能力:提取问题关键信息的抽象思维推理,根据任务实施方案决策的具象思维推理,以及根据问题寻求解决方案的自我修复推理。这些能力的解耦帮助大模型避免了在普通推理链(Chain-of-Thought, CoT)中的思维混乱而导致的失败现象,有效提升了大模型对于任务的适应能力及表现。
作者将 CREATOR 框架与当前的普通推理链方法(CoT),程序推理链方法(Program-of-Thought, PoT)以及没有创造的简单工具使用(Tool Use)进行了比对。同时,为了验证框架中剥离抽象推理与具象推理的有效性,作者还额外引入了整体工具创造(Tool Create - whole)作为基线,该方法将 CREATOR 框架中的创造阶段与决策阶段合二为一,不再进行推理能力上的解耦。

Creation Challenge 数据集问题,标准工具及决策示例

在 MATH 数据集上 CREATOR 框架的表现高于其他推理方法以及简单的工具运用
在数据集的选取上,作者选择了 MATH 以及 TabMWP 数据集作为主要验证。其中前者包含了美国数学竞赛当中的高难度数学问题,而后者将问题与丰富的数据表结合,二者都考验了模型对于多样化场景的问题推理与解决能力。除此之外,作者还额外引入了全新构建的 Creation Challenge 数据集,其中的问题都无法直接套用现有工具或者代码包解决,从而考验了模型进行工具创造的能力。


在 TabMWP 数据集以及 Creation Challenge 上 CREATOR
框架效果也显著更强
从实验结果看来,CREATOR 框架的推理结果要明显好于所有基线,尤其相对于标准的推理方法以及程序推理方法,均达到了更好的效果。同时实验也证明了对抽象与具象推理能力进行解耦也可以有效帮助模型提高准确率。在 Creation Challenge 测试集上,作者还额外验证了在有创造什么样的工具的提示(hint)的情况下,模型将会对问题有着更强的解决能力。因此,提示与思维解耦这两点也成为了工具创造中的重要影响因素。

不同方法针对任务难度的准确率统计

在修正阶段的参与下效果的提升
Seede AI
AI 驱动的设计工具
713
查看详情
除此之外,作者还验证了不同方法对于任务难度的变化曲线,以及修正阶段参与轮次与大模型效果提升之间的联系。结果表明,CREATOR 框架面对有难度的问题能够保持更好的鲁棒性,以及修正阶段的参与能够让不仅是 CREATOR 框架,甚至是 PoT 推理方法都能得到大幅度提升,证实了在实验中引入修正阶段的合理性与有效性。
在主实验之外,文章作者也着重探讨了工具创造的其他优势以及当下大模型工具创造能力的不同展现形式。既然是创造工具,那么作为工具的一大优势必定是其可复用性。作者也顺此思路进一步展示了工具的复用对于任务效果的提升。
作者设计了 300 条问题并三个一组分为了 100 组。其中每一组的三个问题虽然场景不同,但都涉及相同的核心知识(Core Knowledge),即同类问题。作者验证了将对于一个问题创造的工具用于一组问题中的所有场景,是否都能够有效解决并提升准确率。

对于大模型创造的工具在其他问题上迁移,能够有效提高准确率
实验统计表明将模型创造的正确可用的工具迁移到其他同类问题场景,能够有效提升问题解决的正确率。这即表明大模型创造的工具具有良好的可复用性,对于同类问题也有着良好的普适性。
除此之外,作者还展示了大模型进行工具创造的三个维度:对已有工具进行封装以实现不同目的,将不同工具进行组合实现目标功能,以及进行层次化的工具创建。这三个维度由低到高展示了当下大模型工具创造的能力,而这些能力也帮助大模型能够更高效地适应不同场景。

大模型进行工具创造的三个维度
CREATOR 框架通过工具创造实现了大模型抽象与具象思维能力的解耦,是继工具学习之后,对模型能力边际探索的又一大突破。相信未来的更多研究将会以此为基础,继续在工具的使用与创造上不断证明与增强模型潜力,为我们带来更多惊喜。

钱成,清华大学大三年级本科生,THUNLP 实验室成员,导师刘知远。目前研究方向包括大模型预训练,大模型高效微调,以及工具学习等领域。曾获清华大学计算机综合优秀奖学金,并以共同一作身份在 EMNLP,ACL 等国际会议中发表论文。
个人主页:https://qiancheng0.github.io/
以上就是CREATOR制造、使用工具,实现LLM「自我进化」的详细内容,更多请关注其它相关文章!
# 中国
# 长宁区企业网站优化费用
# 淘宝上搜索seo
# 自动引流机器seo
# 谷歌seo里面dp
# 任务推广官方网站有哪些
# 百度seo培训北京
# 内容营销如何推广
# 贵州seo基础教程
# 网站建设教程app
# 如何推广旅游网站平台
# 开源
# 研究
# 展示了
# 一大
# 而在
# 华为
# 更强
# 复用
# 门店
# 解决问题
# llama
# chatgpt
# 框架
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
【首发】首款“消化内镜手术机器人”进入临床尾声,ROBO医疗获数千万元A轮融资
科技赋能司法执行 阿里资产免费为全国法院升级VR新服务
微软AR/VR专利提出使用时间复用谐振驱动产生双极性电源
网易易盾 AI Lab 论文入选 ICASSP 2025!黑科技让语音识别越“听”越准
从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界
昌吉市利用无人机实现全天候河道动态巡检
AI时代,企业需要什么样的员工?
小米又拿下国际比赛第一:AI翻译立功
Meta 推出 Quest 超级分辨率技术,让 VR 画面更清晰
首个算网生态体!中国移动元宇宙产业联盟正式成立
微幼科技晨检机器人与人工晨检相比,有何优势
猿辅导发布最新SaaS业务进展公告:Motiff UI设计工具推出三项新的AI功能
微软宣布为 Azure AI 添加男性声线,增强文本转语音功能
国内首款大尺寸仿鸵双足机器人“大圣”亮相,穿戴红色战袍
AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量
【机智云物联网低功耗转接板】远程环境数据采集探索
学而思网校推出首个基于自研大模型的《人工智能第一课》
500元一张的AI艺术二维码制作,详细教程来了!
电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC
人形机器人概念集体爆发,能买吗?
禁止艺术家使用 AI 创作《龙与地下城》游戏插图的决定已在 D&D Beyond 生效
AI立法迫在眉睫,如何看对行业影响?
智能手机应用中的人工智能的重要性
聚焦WAIC|AI技术支撑大模型探索未来
配 3D 机器人头像,谷歌展示全新安卓 LOGO
美图公司:Wink国内首发AI画面拓展功能
创新科学家成功研发FAST激光靶标维护机器人
美图影像节演讲实录:191次提及AI,发布7款影像生产力工具
Meta发布音频AI模型,仅需2秒片段模拟真人语音
南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台
AI技术加速迭代:周鸿祎视角下的大模型战略
国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功
张勇对话多位诺奖得主 人工智能将无处不在
测试框架-安全和自动驾驶
李开复:未来几年,人工智能会革了所有人的命,除非你这么做
WHEE网页地址入口
在这里见未来!杭州未来科技城全球AI盛会邀您共探最前沿
国内阅读行业首款对话式AI应用“阅爱聊”封闭内测
WHEE上线时间介绍
复旦发布「新闻推荐生态系统模拟器」SimuLine:单机支持万名读者、千名创作者、100+轮次推荐
“黑科技”亮相大湾区轨交论坛 智慧交通迈向“强AI”
商业智能决策技术助力降本增效,世界人工智能大会举办商业AI高峰论坛
“无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼
一公司推出喷火机器狗,可喷出 9 米长火焰
塑造全能智能管家:华为小艺AI加成应对大模型挑战
午报 | 字节跳动要造机器人;东方甄选首次启动自有APP|直播|
“踩油门,也要会踩刹车” 互联网企业高管谈人工智能发展
DreamAvatar数字人在哪里下载
自然语言生成在智能家居设备中的应用
如何用户外电源给无人机实现持久续航
2023-06-12
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。