蚂蚁集团与中国人民大学携手推出业界首个原生moe架构的扩散语言模型(dllm)——llada-moe,成功在约20t数据上完成从零开始的大规模训练,充分验证了该架构在工业级应用中的扩展性与稳定性。该模型在性能上超越此前发布的稠密型扩散语言模型llada1.0/1.5和dream-7b,表现媲美同等规模的自回归模型,同时具备数倍推理速度优势。项目将于近期全面开源,助力全球ai社区推动dllm技术进步。
9月11日,在2025 Inclusion·外滩大会上,这一突破性成果正式发布。中国人民大学高瓴人工智能学院副教授李崇轩,以及蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠共同出席发布仪式。

(中国人民大学与蚂蚁集团联合发布首款原生MoE结构扩散语言模型LLaDA-MoE)
据悉,LLaDA-MoE采用非自回归的掩码扩散机制,首次通过原生训练方式在MoE架构上实现大规模语言建模能力,达到与Qwen2.5相匹敌的语言智能水平,涵盖上下文学习、指令遵循、代码生成及数学推理等核心任务,打破了“语言模型必须依赖自回归生成”的传统观念。
实验结果显示,LLaDA-MoE在代码生成、数学解题、智能体交互等多项任务中显著优于LLaDA1.0/1.5和Dream-7B等现有扩散模型,整体性能接近甚至部分超越Qwen2.5-3B-Instruct这类自回归模型。值得注意的是,该模型仅激活1.4B参数即可实现相当于3B稠密模型的效果,展现出卓越的效率优势。

(LLaDA-MoE多维度性能对比)
“LLaDA-MoE的成功训练,证明了dLLM在大规模工业场景下的可行性与可扩展性,标志着我们在构建更大规模扩散模型的道路上迈出了关键一步。”蓝振忠在现场表示。
CA.LA
第一款时尚产品在线设计平台,服装设计系统
94
查看详情
李崇轩指出:“尽管过去两年大模型能力飞速发展,但一些根本性问题仍未解决。这源于当前主流模型普遍采用自回归生成方式——逐个token顺序输出,导致无法有效捕捉文本内部的双向依赖关系。”
为突破这一瓶颈,研究者们开始探索并行解码的扩散语言模型路径。然而,现有的dLLM大多基于稠密架构,难以继承自回归模型中MoE“扩大参数、控制计算量”的优势。在此背景下,蚂蚁与人大联合团队率先实现技术跨越,推出首个原生MoE结构的扩散语言模型LLaDA-MoE。
蓝振忠进一步透露:“我们将在不久后向全球开放模型权重及自研推理框架,携手开发者社区共同推进AGI的发展。”
据了解,双方团队历时三个月,在LLaDA-1.0基础上重构训练流程,并依托蚂蚁自研的分布式训练框架ATorch,集成
EP并行等多种加速技术,利用Ling2.0基础模型的数据资源,在负载均衡、噪声采样漂移等关键技术难题上取得突破,最终以7B-A1B(总参数7B,激活1.4B)的MoE架构高效完成了约20T数据的训练任务。
在蚂蚁自主研发的统一评测体系下,LLaDA-MoE在HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL等17项权威基准测试中平均提升8.4%,相较LLaDA-1.5领先达13.2%,整体表现与Qwen2.5-3B-Instruct持平。实验结果再次印证“MoE放大器”定律在扩散语言模型领域同样适用,为未来10B至100B级别稀疏模型的研发提供了清晰的技术路线。
此外,除公开模型权重外,蚂蚁还将同步开源专为dLLM优化设计的高性能推理引擎。相比NVIDIA官方fast-dLLM方案,新引擎实现了显著提速。相关代码、技术文档将陆续在GitHub与Hugging Face平台发布。
蓝振忠强调,蚂蚁将持续深耕基于扩散语言模型的AGI研究,下一阶段将联合学术界与全球AI生态,共同探索通往通用人工智能的新路径。“自回归并非唯一选择,扩散模型同样有望成为AGI发展的主航道。”他总结道。
以上就是挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型的详细内容,更多请关注其它相关文章!
# 重构
# 梅州市问答营销推广加盟
# 湘西企业网站建设
# 徐州网络推广网站优化
# 德国耳机品牌营销推广
# seo专业博客资源找寻
# 坪山网站建设流程
# 延庆区玩具网站建设方案
# seo张雪峰
# 小红书推广就选佑微营销
# seo架构怎么分析
# 的是
# 多维
# 负载均衡
# git
# 西湖
# 这一
# 开源
# 中国人民大学
# 首个
# 外滩
# qwen
# 2025
# 大模型
# ai
# nvidia
# 人工智能
# github
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
GPT-4是如何工作的?哈佛教授亲自讲授
AI成政客博弈工具,美国大选真假难辨,律师们的生意来了
大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务
Xbox游戏工作室负责人:VR/AR领域的用户规模还不足够
WPS AI 官网上线:可申请体验官资格,支持 Windows、安卓端下载
再也不怕「视频会议」尬住了!谷歌CHI顶会发布新神器Visual Captions:让图片做你的字幕助手
大模型的“黄金搭档”来了!腾讯云正式发布AI原生向量数据库,提供10亿级向量检索能力
英国前首相:AI可能被用来制造“生物恐怖武器”
人工智能产业竞跑“未来赛道” 创新发展放大“赋能”效应
人工智能在重症监护室的未来
Meta发布语音AI模型 Voicebox 助虚拟助手与NPC对话
PS AI修图免费平替来了!Stability AI又放大招,核弹级更新一键扩图
Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月
社区里,孩子们体验“机器人竞技”
13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了
人工智能进入绿植界,智能庭院市场初具规模
上海发布“元宇宙关键技术攻关行动方案”,加快 AIGC 等突破
统信深度deepin成立 AI SIG 社区,共同提升 Linux 下 AI 体验
鸿蒙OS 4将实现AI大模型集成,余承东表示坚持AI辅助而非AI取代
日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
创作音乐/音频的Meta开源AI工具AudioCraft,让用户通过文本提示实现
一家 380 亿美元的数据巨头,要掀起企业「AI 化」革命
联想举办2025创新开放日,展出260余项算力及AI产品技术
B站内测 AI 搜索功能,输入“?”即可体验
宇宙探索下一阶段,机器代替人类,AI会在太空探索中取代人类吗?
无人机在电力巡检中的应用:全面解析高效巡检流程
如何提高集群协作效率?中外团队合作研发基于均值偏移的机器人队形控制策略
华为发布两款AI存储新品
AI数字人业务频频获点赞,谦寻积极引领示范作用
图灵奖得主Hinton:我已经老了,如何控制比人类更聪明的AI交给你们了
美版贴吧8000小组自爆停摆!拒绝数据被谷歌OpenAI白嫖,CEO被网友骂翻:背刺第三方应用
Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam
RoboNeo安装教程
生成式人工智能来了,如何保护未成年人? | 社会科学报
“思享荟”沙龙热议AIGC与元宇宙 复旦大学赵星畅谈深度数字化
换流站无线物联网络为新型电力系统铺设“数字之路”
数据科学,解码智能未来——Altair首次提出“Frictionless AI”概念
pixivFANBOX 更新运营规则,禁止通过外链绕开 AI 生成禁令
开创全新虚拟现实体验的Pimax Crystal VR头显
2025 世界人工智能大会闭幕,32 个重大产业签约总额达 288 亿元
美图开拍使用教程
热点 | 人工智能黄金时代开启
苹果2万5的AR遭遇砍单95%:不及预期
软通动力天枢元宇宙研究院签约落户江宁高新区
人工智能加速走进百姓生活:从2025全球人工智能技术大会看行业新趋势
微软面向AI初学者推出免费网络课程
Xreal AR 眼镜用投屏盒子 Beam 发布:分体式设计,到手 699 元
探索人工智能和物联网的动态融合
机器人 展才能
自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技?
2025-09-12
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。