大佬何恺明还未正式入职mit,但和mit的第一篇合作
研究已经出来了:
他和MIT师生一起开发了一个自条件图像生成框架,名叫RCG(代码已开源)。
这个框架结构非常简单但效果拔群,直接在ImageNet-1K数据集上实现了无条件图像生成的新SOTA。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
它生成的图像不需要任何人类注释(也就是提示词、类标签什么的),就能做到既保真又具有多样性。

这样的它不仅显著提高了无条件图像生成的水平,还能跟当前最好的条件生成方法一较高下。
用何恺明团队自己的话来说:
有条件和无条件生成任务之间长期存在的性能差距,终于在这一刻被弥补了。
那么,它究竟是如何做到的呢?
首先,所谓无条件生成,就是模型在没有输入信号帮助的情况下直接捕获数据分布生成内容。
这种训练方式很困难,因此一直与条件生成存在很大的性能差距——就像无监督学习无法与监督学习相比
正如自我监督学习的出现一样,它也改变了这种情况
在无条件图像生成领域,也有一个类似于自监督学习概念的自条件生成方法。
相比传统的无条件生成简单地将噪声分布映射到图像分布,这种方法主要将像素生成过程设置在从数据分布本身导出的表示分布上。
它有望超越条件图像生成,并推动诸如分子设计或药物发现这种不需要人类给注释的应用往前发展(这也是为什么条件生成图像发展得这么好,我们还要重视无条件生成)。
现在,基于这个自条件生成概念,何恺明团队首先开发了一个表示扩散模型RDM。
通过自监督图像编码器从图像中截取,主要用于生成低维自监督图像表示

它的核心架构如下:
首先是输入层,它负责将表征投射到隐藏维度C,接着是N个全连接块,最后是一个输出层,负责把隐藏层的潜在特征重新投射(转换)到原始表征维度。
其中每一层都包含一个LayerNorm层、一个SiLU层以及一个线性层。

这样的RDM具有两个优点:
它的特点之一是具有很强的多样性,另一个特点是计算开销很小
Scenario
一个AI生成游戏资产的工具
56
查看详情
在此之后,团队借助RDM提出了今天的主角:表示条件图像生成架构RCG
它是一个简单的自条件生成框架,由三个组件组成:
一个是SSL图像编码器,用于将图像分布转换为紧凑的表示分布。
一个是RDM,用于对该分布进行建模和采样。
最后是一个像素生成器MAGE,用于根据表示来处理图像像。
MAGE的工作方式是在token化的图像中添加随机掩码,并要求网络以从同一图像中提取的表示为条件来重建丢失的token

经过测试发现,最终结果显示,尽管这个自条件生成框架的结构简单,但其效果非常出色
在ImageNet 256×256上,RCG实现了3.56的FID和186.9的IS(Inception Score)得分。
相比之下,在它之前最厉害的无条件生成方法FID分数为7.04,IS得分为123.5。

对于RCG来说,它不仅在条件生成方面表现出色,而且在与该领域基准模型相比时,它的水平相当甚至超过
最后,在无分类器引导的情况下,RCG的成绩还能进一步提高到3.31(FID)和253.4(IS)。
团队表达了:
这些结果显示,条件图像生成模型具有巨大的潜力,可能预示着这一领域的新时代即将到来
本文一共三位作者:

一作是MIT博士生黎天鸿,本科毕业于清华姚班,研究方向为跨模态集成传感技术。
他的个人主页非常有趣,还专门放了一个菜谱合集——研究和烹饪是他最热衷的两件事情

另一位作者是MIT电气工程与计算机科学系(EECS)教授、MIT无线网络和移动计算中心主任Dina Katabi,她是今年斯隆奖的获得者,并已当选美国国家科学院院士。

最后,通讯作者为何恺明,他将在明年正式回归学界、离开Meta加入MIT电气工程和计算机科学系,与Dina Katabi成为同事。

请点击以下链接查看论文:https://arxiv.org/abs/2312.03701
以上就是何恺明与MIT合作:简单框架实现无条件图像生成的最新突破的详细内容,更多请关注其它相关文章!
# 语言表达
# 品牌seo软文收录
# 网站排名优化哪家靠谱
# 中山房地产网站推广公司
# 本地网站搭建怎么做推广
# 温州seo推广网络公司
# 宝山抖音营销推广方法
# 网站seo优化还有用吗
# 二连浩特短视频营销推广
# 网站tdk词优化
# 深泽网站推广大概费用多少
# 模型
# 固定资产
# 中国
# 三季度
# 一言
# 排在
# 斯隆
# 还能
# 是一个
# 最新突破
# 训练
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
RoboNeo安装教程
WHEE网页地址入口
定义人工智能的十个关键术语
美图吴欣鸿:希望更多人用上AI时代的影像生产力工具
618京东3C数码趋势产品备受青睐 AR设备成交额同比增长15倍
Xreal AR 眼镜用投屏盒子 Beam 发布:分体式设计,到手 699 元
V社回应拒绝上架含 AI 生成内容的游戏:审核政策正在调整中
谷歌借AI打破十年排序算法封印,每天被执行数万亿次,网友却说是最不切实际的研究?
你大脑中的画面,现在可以高清还原了
编程已死,AI 当立?教授公开“唱反调”:AI 还帮不了程序员
微软 Azure AI 文本转语音服务升级:新增男性声音和扩展语言支持
AMD在AI方面奋起直追,与英伟达的差距缩小了吗?
AI无法对传统文化符号进行解构和创新
苹果在韩举办首届中小企业智能制造论坛,加速推动工业4.0发展
智能化解决方案:保障数据安全阻击泄露和丢失
13 个提高生产力的 AI 工具
华为即将推出HarmonyOS 4,再度领先行业的AI技术
Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙
7大探索区域打造沉浸式玩乐“元宇宙” 昆明京东MALL未来科技探索官全城招募中
贫穷让我预训练
280万条多模态指令-响应对,八种语言通用,首个涵盖视频内容的指令数据集MIMIC-IT来了
调研海尔智家:AI名,家电命?
击败LLaMA?史上超强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞
赋能选题探索:AI助手在经济学专业中的应用指南
选对AI智能写作软件,让创作游刃有余!
微幼科技晨检机器人:幼儿园健康保障的新伙伴
马斯克反讽人工智能AI炒作:“机器学习”本质就是统计
尼康尼克尔 Z 180-600mm f/5.6-6.3 VR 镜头发布,12499 元
V社悄悄封禁使用AI生成美术素材的游戏
微软AR/VR专利提出使用时间复用谐振驱动产生双极性电源
OpenAI 向所有付费 API 用户开放 GPT-4
智能机器人正在彻底改变客户服务
一文看懂被英伟达看中的九号机器人移动底盘
电力人工智能数据集目录首次发布
OpenAI 静默关闭 AI 文本检测工具,准确率仅为 26%
AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地
一句话搞定数据分析,浙大全新大模型数据助手,连搜集都省了
令人震惊的特斯拉机器人
PS AI修图免费平替来了!Stability AI又放大招,核弹级更新一键扩图
无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA
企业软件行业更将被AI全面重构!Moka李国兴:未来优秀组织和个人将一定是善于使用AI生产力的
2025世界人工智能大会(上海)开幕式纪要
吉林首例!机器人辅助下搭桥手术成功实施
下一个前沿:量子机器学习和人工智能的未来
全新小艺搭载AI大模型,有效提升学生和职场人士的工作效率
当人工智能开始写高考作文?作家陈崇正、朱山坡谈文学与未来
自研4D激光雷达L1 + GPT大语言模型 宇树Unitree Go2四足机器人有啥黑科技?
一公司推出喷火机器狗,可喷出 9 米长火焰
郭帆谈ChatGPT:电影行业需要创新,否则人工智能将让电影变得平庸
华为云盘古大模型3.0发布 AI云服务同时上线:200亿亿次性能
2023-12-15
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。