Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域,不过目前只是实验效果非常惊艳,对Transformer工作原理的相关研究仍然十分有限。
其中最大谜团在于,Transformer为什么仅依靠一个「简单的预测损失」就能从梯度训练动态(gradient training dynamics)中涌现出高效的表征?
最近田渊栋博士公布了团队的最新研究成果,以数学严格方式,分析了1层Transformer(一个自注意力层加一个解码器层)在下一个token预测任务上的SGD训练动态。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
论文链接:https://arxiv.org/abs/2305.16380
Seede AI
AI 驱动的设计工具
713
查看详情
这篇论文打开了自注意力层如何组合输入token动态过程的黑盒子,并揭示了潜在的归纳偏见的性质。
具体来说,在没有位置编码、长输入序列、以及解码器层比自注意力层学习更快的假设下,研究人员证明了自注意力就是一个判别式扫描算法(discriminative scanning algorithm):
从均匀分布的注意力(uniform attention)开始,对于要预测的特定下一个token,模型逐渐关注不同的key token,而较少关注那些出现在多个next token窗口中的常见token
对于不同的token,模型会逐渐降低注意力权重,遵循训练集中的key token和query token之间从低到高共现的顺序。
有趣的是,这个过程不会导致赢家通吃,而是由两层学习率控制的相变而减速,最后变成(几乎)固定的
token组合,在合成和真实世界的数据上也验证了这种动态。
田渊栋博士是Meta人工智能研究院研究员、研究经理,围棋AI项目负责人,其研究方向为深度增强学习及其在游戏中的应用,以及深度学习模型的理论分析。先后于2005年及2008年获得上海交通大学本硕学位,2013年获得美国卡耐基梅隆大学机器人研究所博士学位。
曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions),ICML2025杰出论文荣誉提名奖。
曾在博士毕业后发布《博士五年总结》系列,从研究方向选择、阅读积累、时间管理、工作态度、收入和可持续的职业发展等方面对博士生涯总结心得和体会。
基于Transformer架构的预训练模型通常只包括非常简单的监督任务,比如预测下一个单词、填空等,但却可以为下游任务提供非常丰富的表征,实在是令人费解。
之前的工作虽然已经证明了Transformer本质上就是一个通用近似器(universal approximator),但之前常用的机器学习模型,比如kNN、核SVM、多层感知机等其实也是通用近似器,这种理论无法解释这两类模型在性能上的巨大差距。

研究人员认为,了解Transformer的训练动态(training dynamics)是很重要的,也就是说,在训练过程中,可学习参数是如何随时间变化的。
文章首先以严谨数学定义的方式,形式化描述了1层无位置编码Transformer的SGD在下一个token预测(GPT系列模型常用的训练范式)上的训练动态。
1层的Transformer包含一个softmax自注意力层和预测下一个token的解码器层。

在假设序列很长,而且解码器的学习速度比自注意力层快的情况下,证明了训练期间自注意力的动态行为:
1. 频率偏差Frequency Bias
模型会逐渐关注那些与query token大量共现的key token,而对那些共现较少的token降低注意力。
2. 判别偏差Discrimitive Bias
模型更关注那些在下一个要预测的token中唯一出现的独特token,而对那些在多个下一个token中出现的通用token失去兴趣。
这两个特性表明,自注意力隐式地运行着一种判别式扫描(discriminative scanning)的算法,并存在归纳偏差(inductive bias),即偏向于经常与query token共同出现的独特的key token
此外,虽然自注意力层在训练过程中趋向于变得更加稀疏,但正如频率偏差所暗示的,模型因为训练动态中的相变(phase transition),所以不会崩溃为独热(one hot)。

学习的最后阶段并没有收敛到任何梯度为零的鞍点,而是进入了一个注意力变化缓慢的区域(即随时间变化的对数),并出现参数冻结和学会(learned)。
研究结果进一步表明,相变的开始是由学习率控制的:大的学习率会产生稀疏的注意力模式,而在固定的自注意力学习率下,大的解码器学习率会导致更快的相变和密集的注意力模式。
研究人员将工作中发现的SGD动态命名为扫描(scan)和snap:
扫描阶段:自注意力集中在key tokens上,即不同的、经常与下一个预测token同时出现的token;其他所有token的注意力都下降。
snap阶段:注意力全中几乎冻结,token组合固定。

这一现象在简单的真实世界数据实验中也得到验证,使用SGD在WikiText上训练的1层和3层Transformer的最低自注意力层进行观察,可以发现即使在整个训练过程中学习率保持不变,注意力也会在训练过程中的某一时刻冻结,并变得稀疏。
以上就是田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘的详细内容,更多请关注其它相关文章!
# 上海
# 深圳市网站优化排名
# 如何精准推广人群营销
# 南宁建设网站建设
# 秭归网站推广哪家好
# 卓也小屋营销推广
# 网站优化权重2多长时间
# 怎么建设代刷网站?
# 全渠道推广实战网站
# 附子seo 百度云
# 微电影营销推广的优势
# ai
# 证明了
# 而对
# 较少
# 更快
# 谁能
# 是由
# 过程中
# 多个
# 开源
# kite
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
讯飞听见会写“会议摘要”功能全面升级,AI更懂你的关注点
生成式人工智能进入产业应用!但再“聪明”仍是工具,最终目的是服务于人
PHP和OpenCV库:如何实现人脸识别
Gartner发布中国企业人工智能趋势浪潮3.0
元宇宙迈入2.0时代,它和生成式人工智能有何关联吗?
上天下海登极,青岛与昇腾AI握手一起探索星辰大海
VR健身应用《FitXR》将取消Quest 1端会员服务
AI时代,企业需要什么样的员工?
英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练
Zoom远程会议应用:AI培训需经用户授权
马斯克发推讽刺人工智能,机器学习本质是统计?
加强高质量数据供应能力,促进通用人工智能大模型领域的创新
ChatGPT只讲这25个笑话!实验上千次有90%重复,网友:幽默是人类最后的尊严
世界人工智能大会中西部县域数字就业中心组团亮相
小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学
搭载星火认知大模型 讯飞听见智慧屏开启AI办公新体验
人工智能颠覆软件测试四大方式
调查显示:实际上没有那么多人在用 ChatGPT
AI浪潮席卷,时空壶为何能成为AI翻译时代的破局者
微幼科技推出全自动晨检机器人,助力幼儿园校园健康检测
英国前首相:AI可能被用来制造“生物恐怖武器”
OpenAI首席执行官引用《道德经》 呼吁就AI安全问题合作
喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新
百度文心一言App上架苹果商店,人工智能创作引发热议
抖音在Android平台获得VR|直播|软件著作权
【机智云物联网低功耗转接板】远程环境数据采集探索
航拍无人机怎么选?大疆无人机盘点推荐
世界人工智能大会上,科大讯飞宣布与华为联手
智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典
人工智能如何改变未来语言?
机智云AI离线语音识别模组,让家电变得更加智能便捷
美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸
腾讯企点客服接待与营销分析能力升级!企业操作更高效、人机交互更智能
靠游戏更靠AI 英伟达成唯一首季度两位数增长的公司
微软更新服务协议,以防止通过AI服务进行逆向工程和数据抓取
网易易盾 AI Lab 论文入选 ICASSP 2025!黑科技让语音识别越“听”越准
智能机器人正在彻底改变客户服务
陈根教授:离人形机器人时代还有10年吗?
亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资
人工智能改变网络安全和用户体验的三种方式
OPPO三方联合发布AI可持续发展白皮书,坚持发展健康AI生态
第四范式“式说”大模型入选《2025年通用人工智能创新应用案例集》
宇宙探索下一阶段,机器代替人类,AI会在太空探索中取代人类吗?
十个AI算法常用库J*a版
当科幻走进现实 脑机接口新技术能为生活带来哪些惊喜?
利好来了,AI再起一波?
全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率
两架海燕号无人机交付中国气象局 助力建设国家级机动气象观测业务
央视报道车载人机交互技术!MWC上海魅族表现亮眼,现场热火朝天
通用医疗人工智能如何革新医疗行业?
2023-06-12
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。