回顾NeurIPS 2025: 清华ToT推动大型模型成为焦点


近日,作为美国前十的科技博客,Latent Space对于刚刚过去的NeurIPS 2025大会进行了精选回顾总结。

在NeurIPS会议中,共有3586篇论文被接受,其中6篇获奖。虽然这些获奖论文备受关注,但其他论文同样具备出色的质量和潜力。实际上,这些论文甚至可能预示着AI领域的下一个重大突破。

那就让我们来一起看看吧!

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:qlora: efficient finetuning of quantized llms

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://openreview.net/pdf?id=OUIFPHEgJU

这篇论文提出了QLoRA,这是LoRA的一种更省内存但速度较慢的版本,它使用了几种优化技巧来节省内存。

总体而言,QLoRA使得在对大型语言模型进行微调时可以使用更少的GPU内存。

他们对一个新模型进行了微调,命名为Guanaco,仅用一个GPU进行了为期24小时的训练,结果在Vicuna基准测试中表现优于之前的模型。

与此同时,研究人员还开发了其他方法,如4-bit LoRA量化,其效果相似。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:DataComp: In search of the next generation of multimodal datasets

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://openreview.net/pdf?id=dVaWCDMBof

多模态数据集在最近的突破中扮演着关键角色,如CLIP、Stable Diffusion和GPT-4,但与模型架构或训练算法相比,它们的设计并没有得到同等的研究关注。

为了解决这一机器学习生态系统中的不足,研究人员引入了DataComp,这是一个围绕Common Crawl的新候选池中的128亿个图文对进行数据集实验的测试平台。

使用者可以通过DataComp进行实验,设计新的过滤技术或精心策划新的数据源,并通过运行标准化的CLIP训练代码,以及在38个下游测试集上测试生成的模型,来评估他们的新数据集。

结果显示,最佳基准DataComp-1B,允许从头开始训练一个CLIP ViT-L/14模型,其在ImageNet上的零样本准确度达到了79.2%,比OpenAI的CLIP ViT-L/14模型高出3.7个百分点,以此证明DataComp工作流程可以产生更好的训练集。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:Visual Instruction Tuning

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://www.php.cn/link/c0db7643410e1a667d5e01868827a9af

在这篇论文中,研究人员提出了首次尝试使用仅依赖语言的GPT-4生成多模态语言-图像指令跟随数据的方法。

通过在这种生成的数据上进行指令调整,引入了LLaVA:Large Language and Vision Assistant,这是一个端到端训练的大型多模态模型,连接了一个视觉编码器和LLM,用于通用的视觉和语言理解。

早期实验证明LLaVA展示了令人印象深刻的多模态聊天能力,有时展现出多模态GPT-4在未见过的图像/指令上的行为,并在合成的多模态指令跟随数据集上与GPT-4相比取得了85.1%的相对分数。

在对科学问答进行微调时,LLaVA和GPT-4的协同作用实现了92.53%的新的最先进准确性。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:Tree of Thoughts: Deliberate Problem Solving with Large Language Models

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://arxiv.org/pdf/2305.10601.pdf

语言模型越来越多地被用于广泛的任务中进行一般性问题解决,但在推理过程中仍受限于标记级别、从左到右的决策过程。这意味着它们在需要探索、战略前瞻或初始决策起关键作用的任务中可能表现不佳。

为了克服这些挑战,研究人员引入了一种新的语言模型推理框架,Tree of Thoughts(ToT),它在促使语言模型方面推广了流行的Chain of Thought方法,并允许在一致的文本单元(思想)上进行探索,这些单元作为解决问题的中间步骤。

ToT使语言模型能够通过考虑多条不同的推理路径和自我评估选择来做出刻意的决策,以决定下一步行动,并在必要时展望或回溯以做出全局性的选择。

实验证明,ToT显著提高了语言模型在需要非平凡规划或搜索的三个新任务上的问题解决能力:24点游戏、创意写作和迷你填字游戏。例如,在24点游戏中,虽然使用Chain of Thought提示的GPT-4只解决了4%的任务,但ToT实现了74%的成功率。 

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:Toolformer: Language Models Can Teach Themselves to Use Tools

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://arxiv.org/pdf/2302.04761.pdf

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

语言模型表现出在从少量示例或文本指令中解决新任务方面的显著能力,尤其是在大规模情境下。然而,令人矛盾的是,它们在基本功能方面(如算术或事实查找),相较于更简单且规模较小的专门模型,却表现出困难。

在这篇论文中,研究人员展示了语言模型可以通过简单的API自学使用外部工具,并实现两者的最佳结合。

他们引入了Toolformer,这个模型经过训练能够决定调用哪些API、何时调用它们、传递什么参数以及如何最佳地将结果合并到未来的token预测中。

这是以自监督的方式完成的,每个API只需要少量演示即可。他们整合了各种工具,包括计算器、问答系统、搜索引擎、翻译系统和日历等。

Toolformer在与更大模型竞争的时候,在各种下游任务中取得了明显改善的零样本性能,而不会牺牲其核心语言建模能力。

论文题目:Voyager: An Open-Ended Embodied Agent with Large Language Models

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://arxiv.org/pdf/2305.16291.pdf

该论文介绍了Voyager,这是第一个由大型语言模型(LLM)驱动的,可以在Minecraft中连续探索世界、获取多样化技能并进行独立发现的learning agent。

Voyager包含三个关键组成部分:

自动课程,旨在最大程度地推动探索,

不断增长的可执行代码技能库,用于存储和检索复杂行为,

新的迭代提示机制,整合了环境反馈、执行错误和自我验证以改进程序。

Voyager通过黑盒查询与GPT-4进行交互,避免了对模型参数进行微调的需求。

根据实证研究,Voyager展现出强大的环境上下文中的终身学习能力,并在玩Minecraft方面表现出卓越的熟练度。

它获得了比先前技术水平高出3.3倍的独特物品,行进距离更长2.3倍,并且解锁关键技术树里程碑的速度比先前技术水平快15.3倍。

不过,虽然Voyager能够在新的Minecraft世界中利用学到的技能库从零开始解决新颖任务,但其他技术则难以泛化。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:Evaluating Cognitive Maps and Planning in Large Language Models with CogEval

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://openreview.net/pdf?id=VtkGvGcGe3

该论文首先提出了CogEval,这是一个受认知科学启发的系统评估大型语言模型认知能力的协议。

其次,论文使用CogEval系统评估了八个LLMs(OpenAI GPT-4、GPT-3.5-turbo-175B、d*inci-003-175B、Google Bard、Cohere-xlarge-52.4B、Anthropic Claude-1-52B、LLaMA-13B和Alpaca-7B)的认知地图和规划能力。任务提示基于人类实验,并且不在LLM训练集中存在。

研究发现,虽然LLMs在一些结构较简单的规划任务中显示出明显的能力,但一旦任务变得复杂,LLMs就会陷入盲区,包括对无效轨迹的幻觉和陷入循环。

这些发现不支持LLMs具有即插即用的规划能力的观点。可能是因为LLMs不理解规划问题背后的潜在关系结构,即认知地图,并在根据基础结构展开目标导向轨迹时出现问题。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文题目:Mamba: Linear-Time Sequence Modeling with Selective State Spaces

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

论文地址:https://openreview.net/pdf?id=AL1fq05o7H

作者指出了目前许多次线性时间架构,如线性注意力、门控卷积和循环模型,以及结构化状态空间模型(SSMs),旨在解决Transformer在处理长序列时的计算效率低下问题。然而,这些模型在重要的语言等领域上并没有像注意力模型那样表现出色。作者认为这些

型的一个关键弱点是它们无法进行基于内容的推理,并进行了一些改进。

首先,简单地让 SSM 参数作为输入的函数,可以解决其离散模态的弱点,允许模型根据当前标记选择性地沿序列长度维度传播或忘记信息。

其次,尽管这种变化阻止了高效卷积的使用,但作者在循环模式下设计了一种硬件感知的并行算法。将这些选择性 SSM 集成到简化的端到端神经网络架构中,无需注意力机制,甚至不需要 MLP 模块 (Mamba)。

Mamba在推理速度上表现出色(比Transformers高5倍),并且在序列长度上呈线性缩放,在真实数据上的性能提高了,达到了百万长度序列。

作为一种通用的序列模型骨干,Mamba在语言、音频和基因组学等多个领域取得了最先进的性能。在语言建模方面,Mamba-1.4B模型在预训练和下游评估中均优于相同大小的Transformers模型,与其两倍大小的Transformers模型相匹敌。

NeurIPS 2023精选回顾:大模型最火,清华ToT思维树上榜

虽然这些论文在2025年没有获得奖项,但比如Mamba,作为一种能够革新语言模型架构的技术模型,评估其影响还为时过早。

明年NeurIPS会如何走向,2025的人工智能和神经信息系统领域又会如何发展,虽然目前众说纷纭,但又有谁能打包票呢?让我们拭目以待。

以上就是回顾NeurIPS 2025: 清华ToT推动大型模型成为焦点的详细内容,更多请关注其它相关文章!


# 进行了  # 法库品质网站建设理念  # 天门网站建设流程  # 三沙移动互联网营销推广  # 石龙商务网站建设费用  # 漯河网站推广软件  # 淡水seo优化外包  # 广州谷歌seo推荐官网  # 南京网站建设办理公司  # 抖音seo优化开发  # 完美日记关键词排名  # 本田  # 这是一个  # 数据  # 提出了  # 多模  # 这是  # 并在  # 树上  # 最火  # 清华  # stable diffusion  # follow  # llama  # claude  # 训练 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 电池比 Air 2S 大 20%,大疆 Air 3 无人机现身 FCC  如布AI口袋学习机S12 将亮相综艺节目《好样的!国货》  洞穴探险神器?可自主导航的单旋翼自旋无人机,效率更高!  Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的  OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作  物联网和人工智能的协同作用:释放预测性维护的潜力  美图设计室2.0新增哪些功能  新闻传闻:迪士尼可能采用人工智能来控制电影制作成本  “痴迷”元宇宙,魔珐科技想做什么?  Xreal AR 眼镜用投屏盒子 Beam 发布:分体式设计,到手 699 元  网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手  在心理治疗中用VR技术,治疗成效显著提高  传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台  闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景  生成式人工智能如何改变云安全的游戏规则  25个AI智能体源码现已公开,灵感来自斯坦福的「虚拟小镇」和《西部世界》  普林斯顿大学推出 Infinigen AI 模型,生成真实自然环境 3D 场景  小艺将具备大模型能力,鸿蒙4加速AI普及之路  推动企业数字化转型升级!“松江智造”摘世界人工智能大会重磅奖项  世界人工智能大会高合发表演讲,HiPhi Y即将全球上市  改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键  灯塔AI大模型票房预测上线:开源算法不断提升精准度  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  AI连线 | 专访风平智能CEO林洪祥:让AI数字人拥有漂亮的外表和有趣的灵魂,安全问题是重要考量  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  618京东3C数码趋势产品备受青睐 AR设备成交额同比增长15倍  小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学  苹果在韩举办首届中小企业智能制造论坛,加速推动工业4.0发展  AI 助手 Copilot 上线,微软 Win11 Dev 预览版 Build 23493 发布  探索人工智能在物联网领域的影响与改变  大疆 DJI Mini 4 Pro 无人机曝光:流线设计,有望迎来功能性提升  马斯克的幽默“现实”:AR眼镜与20美元“增强现实”哪个真实?  谷歌 Gmail“帮我写电子邮件”AI 功能开始向安卓和苹果设备推广  生成式AI与云结合,机遇与挑战并存  视觉中国推出付费AI绘图功能:无版权可用  WPS AI 官网上线:可申请体验官资格,支持 Windows、安卓端下载  OpenAI 引入个性化指令功能,消除对话中的重复偏好与信息  智能手机应用中的人工智能的重要性  明略科技发布免费开源TensorBoard.cpp,促进大型模型的预训练工作  百度创始人、董事长兼首席执行官李彦宏:AI原生应用比大模型数量更重要  速途网络成立“人工智能专家委员会”5位中美博士加盟  比尔盖茨:AI确实存在风险,但可控  统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验  元宇宙技术带你穿梭“大运河”,江苏书展上的数字阅读馆吸睛小读者  全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率  500元一张的AI艺术二维码制作,详细教程来了!  【澎湃原动力】人工智能产业协同创新中心:全产业链资源在这里汇聚  第二届光合组织AI解决方案大赛赛果揭晓  昌吉市利用无人机实现全天候河道动态巡检  郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸 

 2024-01-26

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.