在 AIGC 的神奇世界里,我们可以在图像上通过「拖曳」的方式,改变并合成自己想要的图像。比如让一头狮子转头并张嘴:

实现这一效果的研究出自华人一作领衔的「Drag Your GAN」论文,于上个月放出并已被 SIGGRAPH 2025 会议接收。
一个多月过去了,该研究团队于近日放出了官方代码。短短三天时间,Star 量便已突破了 23k,足可见其火爆程度。
图片
github 地址:https://github.com/xingangpan/draggan
无独有偶,今日又一项类似的研究 —— DragDiffusion 进入了人们的视线。此前的 DragGAN 实现了基于点的交互式图像编辑,并取得像素级精度的编辑效果。但是也有不足,DragGAN 是基于生成对抗网络(GAN),通用性会受到预训练 GAN 模型容量的限制。
在新研究中,新加坡国立大学和字节跳动的几位研究者将这类编辑框架扩展到了扩散模型,提出了 DragDiffusion。他们利用大规模预训练扩散模型,极大提升了基于点的交互式编辑在现实世界场景中的适用性。
虽然现在大多数基于扩散的图像编辑方法都适用于文本嵌入,但 DragDiffusion 优化了扩散潜在表示,实现了精确的空间控制。
图片
研究者表示,扩散模型以迭代方式生成图像,而「一步」优化扩散潜在表示足以生成连贯结果,使 DragDiffusion 高效完成了高质量编辑。
他们在各种具有挑战性的场景(如多对象、不同对象类别)下进行了广泛实验,验证了 DragDiffusion 的可塑性和通用性。相关代码也将很快放出、
下面我们看看 DragDiffusion 效果如何。
首先,我们想让下图中的小猫咪的头再抬高一点,用户只需将红色的点拖拽至蓝色的点就可以了:

接下来,我们想让山峰变得再高一点,也没有问题,拖拽红色关键点就可以了:
图片
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
还想让雕塑的头像转个头,拖拽一下就能办到:
图片
让岸边的花,开的范围更广一点:
ChatGPT Writer
免费 Chrome 扩展程序,使用 ChatGPT AI 生成电子邮件和消息。
106
查看详情

本文提出的 DRAGDIFFUSION 旨在优化特定的扩散潜变量,以实现可交互的、基于点的图像编辑。
为了实现这一目标,该研究首先在扩散模型的基础上微调 LoRA,以重建用户输入图像。这样做可以保证输入、输出图像的风格保持一致。
接下来,研究者对输入图像采用 DDIM inversion(这是一种探索扩散模型的逆变换和潜在空间操作的方法),以获得特定步骤的扩散潜变量。
在编辑过程中,研究者反复运用动作监督和点跟踪,以优化先前获得的第 t 步扩散潜变量,从而将处理点的内容「拖拽(drag)」到目标位置。编辑过程还应用了正则化项,以确保图像的未掩码区域保持不变。
最后,通过 DDIM 对优化后的第 t 步潜变量进行去噪,得到编辑后的结果。总体概览图如下所示:
图片
给定一张输入图像,DRAGDIFFUSION 将关键点(红色)的内容「拖拽」到相应的目标点(蓝色)。例如在图(1)中,将小狗的头转过来,图(7)将老虎的嘴巴合上等等。
图片
下面是更多示例演示。如图(4)将山峰变高,图(7)将笔头变大等等。
图片

以上就是DragGAN开源三天Star量23k,这又来一个DragDiffusion的详细内容,更多请关注其它相关文章!
# 环比
# seo专员和网站编辑
# 日照seo优化排名招商
# 增城seo霸屏推广
# 云南百度网站关键词排名
# seo技术厂商
# seo原创文章代写
# 贵阳市百度网站优化推广
# 津南区网站优化推广
# 桓台网站推广招聘信息
# 福建谷歌关键词排名
# 图片
# 合上
# 上半年
# 就可以
# 营收
# 中国
# 想让
# 拖拽
# 这又
# 开源
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
亚太地区 70% 的企业高管正探索生成式 AI 应用或已经进行投资
苹果CEO库克:持续研究生成式人工智能技术
国内通用人形机器人将发布、产业加速突破
2025WRC世界机器人大赛锦标赛(烟台)收官!斯坦星球勇夺VEX赛项冠亚军!
阿里云推出通义万相AI绘画大模型
人脸识别+全景双摄+AI算法 萤石推动智能锁行业革新
布局智能物联新时代,中国移动“5G+物联网”亮相2025 MWC
借助ChatGPT快速上手ElasticSearch dsl
争鸣:OpenAI奥特曼、Hinton、杨立昆的AI观点到底有何不同?
人工智能和神经网络有什么联系与区别?
剧透!蜜小豆@2025世界人工智能大会多个亮点曝光
小米发布CyberDog2 - 他们的第二代仿生四足机器人展示
鉴智机器人发布基于地平线征程5的标准视觉感知产品
中国气象局预测:到 2030 年,中国人工智能气象应用将达到国际领先水平
人工智能赋能无人驾驶:商业化进程再提速
英伟达的AI领域垄断地位:一直无法撼动吗?
浪潮KaiwuDB:“快人一步” - 打造更懂物联网的数据库
AI和ML推动联网设备的增长
沐曦首款AI推理GPU亮相:INT8算力达160TOPS!
学生作文评分的新趋势:教师与AI的合作模式
创新全场景清洁方案!海尔商用机器人首发上市
世界人工智能大会高合发表演讲,HiPhi Y即将全球上市
AI大模型产品集体奔赴高考考场,教育赛道的讯飞星火能赢吗?
AI室内设计软件流行,室内设计行业如何应对效率变革
对艺术家拒绝置若罔闻,Stability AI 将推出适应多种画风的开源模型
ChatGPT大更新!OpenAI奉上程序员大礼包:API新增杀手级能力还降价,新模型、四倍上下文都来了
《上古卷轴5》AI高清材质包优化游戏中所有怪物
OpenAI 为开发者推出 GPT 聊天机器人 API 大更新,同时降低价格
大型无人机FH-98国内首次夜航转场成功
OpenAI更新GPT-4等模型,新增API函数调用,价格最高降75%
热点 | 人工智能黄金时代开启
2025智源大会AI安全话题备受关注,《人机对齐》新书首发
国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功
网易加速行业AI大模型应用,将覆盖100多个应用场景
AI技术加速迭代:周鸿祎视角下的大模型战略
机构:边缘AI或是当前预期差最大的AI方向
谷歌推出RT-2视觉语言动作模型,使机器人能够掌握垃圾丢弃技能
腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果
IBM CEO克里希纳:人工智能潜在创新无法被监管
ChatGPT只讲这25个笑话!实验上千次有90%重复,网友:幽默是人类最后的尊严
江永:精准施训提升通信无人机应急救援能力
亲身体验鸿蒙4:AI大模型带来的便利,告别单纯的旁观者状态
英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍
九号公司主导制定短途交通和送物机器人领域首个国际标准,标志着零的突破发布
英媒:硅谷有些人太鼓吹AI,宣扬“学习无用”
苹果AI战略与微软谷歌大相径庭,到底是领先还是落后?
如何用AI重塑你的工作流(一)
无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA
抖音在Android平台获得VR|直播|软件著作权
报道称亚马逊正在测试AI生成产品评价摘要
2023-06-28
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。