CVPR 2025 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景


美图影像研究院(mt lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3d场景编辑方法——customnerf。该研究成果已被cvpr 2025接收。customnerf不仅支持文本描述和参考图片作为3d场景的编辑提示,还能根据用户提供的信息生成高质量的3d场景。

Neural Radiance Field (NeRF) 自 2025 年神经辐射场 (Neural Radiance Field, NeRF) 提出以来,将隐式表达推上了一个新的高度。作为当前最前沿的技术之一,NeRF 快速泛化应用在计算机视觉、计算机图形学、增强现实、虚拟现实等领域,并持续受到广泛关注。 NeRF 通过对场景中每个点的辐射和密度进行建模,从而实现高质量的图像合成,这使得它在计算机视觉、计算机图形学、增强现实和虚拟现实等领域的应用广泛关注。 NeRF 的独特之处在于其能够从输入的场景中生成高质量的图像,而不需要复杂的 3D 扫描或密集的视角图像。这一特性使得 NeRF 在许多领域具有广泛的应用前景,包括计算机视觉、计算机图形学、增强现实和虚拟现实等领域,并持续受到广泛关注。 NeRF 通过对场景中的每个点的辐射和密度进行建模,从而实现高质量的图像合成。 NeRF 还可以用于生成高质量的 3D 渲染,这使得它在虚拟现实和增强现实等领域的应用非常有前景。 NeRF 的快速发展和广泛应用将继续受到广泛关注,预计在未来将会有更多基于 NeRF 的创新和应用涌现。

NeRF(神经辐射场)是一种用于优化和连续表示的特点,在3D场景重建中具有很多应用。它甚至带动了3D场景编辑领域的研究,例如3D对物或场景的纹理重绘、风格化等。为了进一步提高3D场景编辑的灵活性,近期基于预训练模型的NeRF编辑方法也正在被大量探索,而且由于NeRF的隐式表征以及3D场景的几何特性可以获得符合文本提示的编辑结果,这些都是非常容易实现的事情。

为了使文本驱动的3D场景编辑也能够实现精准控制,美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了一种将文本描述和参考图像统一为编辑提供的CustomNeRF框架。该框架内置了特定视角主体V∗,嵌入到混合表示中,从而满足一般化和定制化的3D场景编辑要求。该研究成果已被CVPR 2025记录,代码也已开源。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

  • 论文链接:https://arxiv.org/abs/2312.01663

  • 代码链接:https://github.com/hrz2000/CustomNeRF

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                 图 1:CustomNeRF 在文本驱动(左)和图像驱动(右)的编辑效果

CustomNeRF 解决的两大挑战

目前,基于预训练扩散模型进行 3D 场景编辑的主流方法主要分为两类。

其一,是使用图像编辑模型迭代地更新数据集中的图像,但是受限于图像编辑模型的能力,会在部分编辑情形下失效。其二,则是利用分数蒸馏采样(SDS)损失对场景进行编辑,但由于文本和场景之间的对齐问题,这类方法在真实场景中无法直接适配,会对非编辑区域造成不必要的修改,往往需要 mesh 或 voxel 等显式中间表达。

此外,当前的这两类方法主要集中在由文本驱动的 3D 场景编辑任务中,文本描述往往难以准确表达用户的编辑需求,无法将图像中的具体概念定制化到 3D 场景中,只能对原始 3D 场景进行一般化编辑,因此难以获得用户预期中的编辑结果。

事实上,获得预期编辑结果的关键在于精确识别图像前景区域,这样能够在保持图像背景的同时促进几何一致的图像前景编辑。

因此,为了实现仅对图像前景区域进行准确编辑,该论文提出了一种局部 - 全局迭代编辑(LGIE)的训练方案,在图像前景区域编辑和全图像编辑之间交替进行。该方案能够准确定位图像前景区域,并在保留图像背景的同时仅对图像前景进行操作。

此外,在由图像驱动的 3D 场景编辑中,存在因微调的扩散模型过拟合到参考图像视角,所造成的编辑结果几何不一致问题。对此,该论文设计了一种类引导的正则化,在局部编辑阶段仅使用类词来表示参考图像的主体,并利用预训练扩散模型中的一般类先验来促进几何一致的编辑。

CustomNeRF 的整体流程

如图 2 所示,CustomNeRF 通过 3 个步骤,来实现在文本提示或参考图像的指导下精确编辑重建 3D 场景这一目标。

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                   图 2 CustomNeRF 的整体流程图

Machine Translation Machine Translation

聚合多个来源的AI翻译

Machine Translation 49 查看详情 Machine Translation

首先,在重建原始的 3D 场景时,CustomNeRF 引入了额外的 mask field 来估计除常规颜色和密度之外的编辑概率。如图 2(a) 所示,对于一组需要重建 3D 场景的图像,该论文先使用 Grouded SAM 从自然语言描述中提取图像编辑区域的掩码,结合原始图像集训练 foreground-aware NeRF。在 NeRF 重建后,编辑概率用于区分要编辑的图像区域(即图像前景区域)和不相关的图像区域(即图像背景区域),以便于在图像编辑训练过程中进行解耦合的渲染。

其次,为了统一图像驱动和文本驱动的 3D 场景编辑任务,如图 2(b)所示,该论文采用了 Custom Diffusion 的方法在图像驱动条件下针对参考图进行微调,以学习特定主体的关键特征。经过训练后,特殊词 V∗可以作为常规的单词标记用于表达参考图像中的主体概念,从而形成一个混合提示,例如 “a photo of a V∗ dog”。通过这种方式,CustomNeRF 能够对自适应类型的数据(包括图像或文本)进行一致且有效的编辑。

在最终的编辑阶段,由于 NeRF 的隐式表达,如果使用 SDS 损失对整个 3D 区域进行优化会导致背景区域发生显著变化,而这些区域在编辑后理应与原始场景保持一致。如图 2(c)所示,该论文提出了局部 - 全局迭代编辑(LGIE)方案进行解耦合的 SDS 训练,使其能够在编辑布局区域的同时保留背景内容。

具体而言,该论文将 NeRF 的编辑训练过程进行了更精细的划分。借助 foreground-aware NeRF,CustomNeRF 可以在训练中灵活地控制 NeRF 的渲染过程,即在固定相机视角下,可以选择渲染前景、背景、以及包含前景和背景的常规图像。在训练过程中,通过迭代渲染前景和背景,并结合相应的前景或背景提示,可以利用 SDS 损失在不同层面编辑当前的 NeRF 场景。其中,局部的前景训练使得在编辑过程中能够只关注需编辑的区域,简化复杂场景中编辑任务的难度;而全局的训练将整个场景考虑在内,能够保持前景和背景的协调性。为了进一步保持非编辑区域不发生改变,该论文还利用编辑训练前的背景监督训练过程中所新渲染的背景,来保持背景像素的一致性。

此外,图像驱动 3D 场景编辑中存在着加剧的几何不一致问题。因为经过参考图像微调过的扩散模型,在推理过程中倾向于产生和参考图像视角相近的图像,造成编辑后 3D 场景的多个视角均是前视图的几何问题。为此,该论文设计了一种类引导的正则化策略,在全局提示中使用特殊描述符 V*,在局部提示中仅使用类词,以利用预训练扩散模型中包含的类先验,使用更几何一致的方式将新概念注入场景中。

实验结果

如图 3 和图 4 展示了 CustomNeRF 与基线方法的 3D 场景重建结果对比,在参考图像和文本驱动的 3D 场景编辑任务中,CustomNeRF 均取得了不错的编辑结果,不仅与编辑提示达成了良好的对齐,且背景区域和原场景保持一致。此外,表 1、表 2 展示了 CustomNeRF 在图像、文本驱动下与基线方法的量化比较,结果显示在文本对齐指标、图像对齐指标和人类评估中,CustomNeRF 均超越了基线方法。

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                  图 3 图像驱动编辑下与基线方法的可视化比较

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                               图 4 文本驱动编辑下与基线的可视化比较

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                   表 1 图像驱动编辑下与基线的定量比较

CVPR 2024 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景

                                   表 2 文本驱动编辑下与基线的定量比较

总结

本论文创新性地提出了 CustomNeRF 模型,同时支持文本描述或参考图像的编辑提示,并解决了两个关键性挑战 —— 精确的仅前景编辑以及在使用单视图参考图像时多个视图的一致性。该方案包括局部 - 全局迭代编辑(LGIE)训练方案,使得编辑操作能够在专注于前景的同时保持背景不变;以及类引导正则化,减轻图像驱动编辑中的视图不一致,通过大量实验,也验证了 CustomNeRF 在各种真实场景中,能够准确编辑由文本描述和参考图像提示的 3D 场景。

以上就是CVPR 2025 | 仅需文本或图像提示,新框架CustomNeRF精准编辑3D场景的详细内容,更多请关注其它相关文章!


# 多个  # 人群画像数据网站推广  # 平谷国外网站推广  # 嘉兴seo推广哪里找  # 抖音衣服营销推广方案  # seo岆妦系驮焊  # 南阳农产品推广招聘网站  # 韩国童品网站推广怎么做  # 咸阳seo公司甄选16火星  # 苏州seo网站标题  # 汽车买卖网站建设模板  # 迭代  # 工程  # 所示  # 过程中  # 高质量  # 如图  # 景中  # 提出了  # 中国科学院  # 仅需  # type  # 重绘  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 这效果能打几分?AI真人化《名侦探柯南》  谷歌将使用公开信息训练 AI 模型,构建更强大的自家产品  百川智能发布Baichuan-13B AI模型,号称“130亿参数开源可商用”  国产工业机器人领域“暗潮涌动”,即将迎来新一轮复苏  随时随地,追踪每个像素,连遮挡都不怕的「追踪一切」视频算法来了  磐镭发布全新 GeForce RTX 4080 ARMOUR 显卡,售价为 9499 元  苹果AI战略与微软谷歌大相径庭,到底是领先还是落后?  绿联发布笑脸屏幕显示充电状态的30W/65W Q湃机器人充电器  当一切设备都受到人工智能的控制  卫星通信牵引物联网竞争升维,模组厂商如何决胜百亿市场?  深剖Apple Vision Pro中暗藏的“AI”  常见的五个人工智能误解  看了天美对AI的布局,我感觉它想得是真明白  报告称 70% 程序员已使用各种 AI 工具编程  月薪6万,哪些AI岗位在抢人?  给小朋友最好的科技礼物:乐天派桌面机器人  类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练  联通发布鸿湖图文AI大模型1.0,可实现以文生图  如布科技发布新产品AI口袋学习机S12  硅谷人工智能研究院创始人皮埃罗·斯加鲁菲:Transformer模型演讲  城市在采用人工智能方面进展如何?  消息称苹果 iPhone 15 系列健康应用将深度融合 AI 技术  七大主流AI企业包括OpenAI、谷歌等联合承诺:引入水印技术,并允许第三方审核AI内容  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  AI会帮我们把活干完吗?  掌阅科技入选北京市通用人工智能产业创新伙伴计划第二批成员名单  首家承认ChatGPT影响其收入的公司Chegg选择拥抱AI ,裁减4%员工  一文看懂被英伟达看中的九号机器人移动底盘  智能电网技术:提高能源效率和可靠性  百亿量化私募:量化投资进入“精耕细作”时代 AI带来行业新变革  微软宣布为 Azure AI 添加男性声线,增强文本转语音功能  IBM 与 NASA 携手开源地理空间 AI 模型,促进气候科学研究进步  AI技术改变*,新骗局来袭,*成功率接近100%  探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网  精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*  人工智能进入绿植界,智能庭院市场初具规模  AI大举入侵内容行业,哪些上市*及动漫公司进行了布局?  联想创投携手12家被投企业MWC展示元宇宙、机器人等技术  全媒封面丨⑤商汤科技:原创AI算法“发电厂”  人工智能:解决劳动力短缺的关键策略  能抓取玻璃碎片、水下透明物,清华提出通用型透明物体抓取框架,成功率极高  抛媚眼给瞎子看?微软、谷歌的AI广告被广告主抵制  南京制造的国产工业机器人:在外资品牌竞争中突围,年销售1.8万台  微软在德国举办MR研讨会,向女性分享元宇宙潜力  人工智能创作的“婴儿版超级英雄”,你觉得哪个最可爱  你大脑中的画面,现在可以高清还原了  英国前首相:AI可能被用来制造“生物恐怖武器”  IBM与NASA联手开源地理空间AI基础模型,促进气候科学领域进步  OpenAI宣布组建新团队 以控制“超级智能”人工智能  陈根:AI冥想教练为用户提供个性化指导 

 2024-04-15

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.