首页 > 营销学院 > IT资讯

CVPR 2025 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

美图影像研究院（mt lab）与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3d场景编辑方法——customnerf。该研究成果已被cvpr 2025接收。customnerf不仅支持文本描述和参考图片作为3d场景的编辑提示，还能根据用户提供的信息生成高质量的3d场景。

Neural Radiance Field (NeRF) 自 2025 年神经辐射场 (Neural Radiance Field, NeRF) 提出以来，将隐式表达推上了一个新的高度。作为当前最前沿的技术之一，NeRF 快速泛化应用在计算机视觉、计算机图形学、增强现实、虚拟现实等领域，并持续受到广泛关注。 NeRF 通过对场景中每个点的辐射和密度进行建模，从而实现高质量的图像合成，这使得它在计算机视觉、计算机图形学、增强现实和虚拟现实等领域的应用广泛关注。 NeRF 的独特之处在于其能够从输入的场景中生成高质量的图像，而不需要复杂的 3D 扫描或密集的视角图像。这一特性使得 NeRF 在许多领域具有广泛的应用前景，包括计算机视觉、计算机图形学、增强现实和虚拟现实等领域，并持续受到广泛关注。 NeRF 通过对场景中的每个点的辐射和密度进行建模，从而实现高质量的图像合成。 NeRF 还可以用于生成高质量的 3D 渲染，这使得它在虚拟现实和增强现实等领域的应用非常有前景。 NeRF 的快速发展和广泛应用将继续受到广泛关注，预计在未来将会有更多基于 NeRF 的创新和应用涌现。

NeRF（神经辐射场）是一种用于优化和连续表示的特点，在3D场景重建中具有很多应用。它甚至带动了3D场景编辑领域的研究，例如3D对物或场景的纹理重绘、风格化等。为了进一步提高3D场景编辑的灵活性，近期基于预训练模型的NeRF编辑方法也正在被大量探索，而且由于NeRF的隐式表征以及3D场景的几何特性可以获得符合文本提示的编辑结果，这些都是非常容易实现的事情。

为了使文本驱动的3D场景编辑也能够实现精准控制，美图影像研究院（MT Lab）与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了一种将文本描述和参考图像统一为编辑提供的CustomNeRF框架。该框架内置了特定视角主体V∗，嵌入到混合表示中，从而满足一般化和定制化的3D场景编辑要求。该研究成果已被CVPR 2025记录，代码也已开源。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

论文链接：https://arxiv.org/abs/2312.01663
代码链接：https://github.com/hrz2000/CustomNeRF

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{图 1：CustomNeRF 在文本驱动（左）和图像驱动（右）的编辑效果}

CustomNeRF 解决的两大挑战

目前，基于预训练扩散模型进行 3D 场景编辑的主流方法主要分为两类。

其一，是使用图像编辑模型迭代地更新数据集中的图像，但是受限于图像编辑模型的能力，会在部分编辑情形下失效。其二，则是利用分数蒸馏采样（SDS）损失对场景进行编辑，但由于文本和场景之间的对齐问题，这类方法在真实场景中无法直接适配，会对非编辑区域造成不必要的修改，往往需要 mesh 或 voxel 等显式中间表达。

此外，当前的这两类方法主要集中在由文本驱动的 3D 场景编辑任务中，文本描述往往难以准确表达用户的编辑需求，无法将图像中的具体概念定制化到 3D 场景中，只能对原始 3D 场景进行一般化编辑，因此难以获得用户预期中的编辑结果。

事实上，获得预期编辑结果的关键在于精确识别图像前景区域，这样能够在保持图像背景的同时促进几何一致的图像前景编辑。

因此，为了实现仅对图像前景区域进行准确编辑，该论文提出了一种局部 - 全局迭代编辑（LGIE）的训练方案，在图像前景区域编辑和全图像编辑之间交替进行。该方案能够准确定位图像前景区域，并在保留图像背景的同时仅对图像前景进行操作。

此外，在由图像驱动的 3D 场景编辑中，存在因微调的扩散模型过拟合到参考图像视角，所造成的编辑结果几何不一致问题。对此，该论文设计了一种类引导的正则化，在局部编辑阶段仅使用类词来表示参考图像的主体，并利用预训练扩散模型中的一般类先验来促进几何一致的编辑。

CustomNeRF 的整体流程

如图 2 所示，CustomNeRF 通过 3 个步骤，来实现在文本提示或参考图像的指导下精确编辑重建 3D 场景这一目标。

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{图 2 CustomNeRF 的整体流程图}

Machine Translation

聚合多个来源的AI翻译

49 查看详情 Machine Translation

首先，在重建原始的 3D 场景时，CustomNeRF 引入了额外的 mask field 来估计除常规颜色和密度之外的编辑概率。如图 2（a）所示，对于一组需要重建 3D 场景的图像，该论文先使用 Grouded SAM 从自然语言描述中提取图像编辑区域的掩码，结合原始图像集训练 foreground-aware NeRF。在 NeRF 重建后，编辑概率用于区分要编辑的图像区域（即图像前景区域）和不相关的图像区域（即图像背景区域），以便于在图像编辑训练过程中进行解耦合的渲染。

其次，为了统一图像驱动和文本驱动的 3D 场景编辑任务，如图 2（b）所示，该论文采用了 Custom Diffusion 的方法在图像驱动条件下针对参考图进行微调，以学习特定主体的关键特征。经过训练后，特殊词 V∗可以作为常规的单词标记用于表达参考图像中的主体概念，从而形成一个混合提示，例如 “a photo of a V∗ dog”。通过这种方式，CustomNeRF 能够对自适应类型的数据（包括图像或文本）进行一致且有效的编辑。

在最终的编辑阶段，由于 NeRF 的隐式表达，如果使用 SDS 损失对整个 3D 区域进行优化会导致背景区域发生显著变化，而这些区域在编辑后理应与原始场景保持一致。如图 2（c）所示，该论文提出了局部 - 全局迭代编辑（LGIE）方案进行解耦合的 SDS 训练，使其能够在编辑布局区域的同时保留背景内容。

具体而言，该论文将 NeRF 的编辑训练过程进行了更精细的划分。借助 foreground-aware NeRF，CustomNeRF 可以在训练中灵活地控制 NeRF 的渲染过程，即在固定相机视角下，可以选择渲染前景、背景、以及包含前景和背景的常规图像。在训练过程中，通过迭代渲染前景和背景，并结合相应的前景或背景提示，可以利用 SDS 损失在不同层面编辑当前的 NeRF 场景。其中，局部的前景训练使得在编辑过程中能够只关注需编辑的区域，简化复杂场景中编辑任务的难度；而全局的训练将整个场景考虑在内，能够保持前景和背景的协调性。为了进一步保持非编辑区域不发生改变，该论文还利用编辑训练前的背景监督训练过程中所新渲染的背景，来保持背景像素的一致性。

此外，图像驱动 3D 场景编辑中存在着加剧的几何不一致问题。因为经过参考图像微调过的扩散模型，在推理过程中倾向于产生和参考图像视角相近的图像，造成编辑后 3D 场景的多个视角均是前视图的几何问题。为此，该论文设计了一种类引导的正则化策略，在全局提示中使用特殊描述符 V*，在局部提示中仅使用类词，以利用预训练扩散模型中包含的类先验，使用更几何一致的方式将新概念注入场景中。

实验结果

如图 3 和图 4 展示了 CustomNeRF 与基线方法的 3D 场景重建结果对比，在参考图像和文本驱动的 3D 场景编辑任务中，CustomNeRF 均取得了不错的编辑结果，不仅与编辑提示达成了良好的对齐，且背景区域和原场景保持一致。此外，表 1、表 2 展示了 CustomNeRF 在图像、文本驱动下与基线方法的量化比较，结果显示在文本对齐指标、图像对齐指标和人类评估中，CustomNeRF 均超越了基线方法。

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{图 3 图像驱动编辑下与基线方法的可视化比较}

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{图 4 文本驱动编辑下与基线的可视化比较}

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{表 1 图像驱动编辑下与基线的定量比较}

CVPR 2024 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景

^{表 2 文本驱动编辑下与基线的定量比较}

总结

本论文创新性地提出了 CustomNeRF 模型，同时支持文本描述或参考图像的编辑提示，并解决了两个关键性挑战 —— 精确的仅前景编辑以及在使用单视图参考图像时多个视图的一致性。该方案包括局部 - 全局迭代编辑（LGIE）训练方案，使得编辑操作能够在专注于前景的同时保持背景不变；以及类引导正则化，减轻图像驱动编辑中的视图不一致，通过大量实验，也验证了 CustomNeRF 在各种真实场景中，能够准确编辑由文本描述和参考图像提示的 3D 场景。

以上就是CVPR 2025 | 仅需文本或图像提示，新框架CustomNeRF精准编辑3D场景的详细内容，更多请关注其它相关文章！

# 多个 # 人群画像数据网站推广 # 平谷国外网站推广 # 嘉兴seo推广哪里找 # 抖音衣服营销推广方案 # seo岆妦系驮焊 # 南阳农产品推广招聘网站 # 韩国童品网站推广怎么做 # 咸阳seo公司甄选16火星 # 苏州seo网站标题 # 汽车买卖网站建设模板 # 迭代 # 工程 # 所示 # 过程中 # 高质量 # 如图 # 景中 # 提出了 # 中国科学院 # 仅需 # type # 重绘 # git

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2024-04-15

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。