仅需文本或图像精准编辑3D场景，CustomNeRF入选CVPR 2024

明敏 2024-04-09 14:54:40 来源：量子位

美图&信工所&北航&中大联合提出

美图影像研究院（MT Lab）与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3D场景编辑方法——CustomNeRF，同时支持文本描述和参考图像作为3D场景的编辑提示，该研究成果已被CVPR 2024接收。

背景

自2020年神经辐射场(Neural Radiance Field, NeRF)提出以来，将隐式表达推上了一个新的高度。作为当前最前沿的技术之一，NeRF快速泛化应用在计算机视觉、计算机图形学、增强现实、虚拟现实等领域，并持续受到广泛关注。

有赖于易于优化和连续表示的特点，NeRF在3D场景重建中有着大量应用，也带动了3D场景编辑领域的研究，如3D对象或场景的纹理重绘、风格化等。为了进一步提高3D场景编辑的灵活性，近期基于预训练扩散模型进行3D场景编辑的方法也正在被大量探索，但由于NeRF的隐式表征以及3D场景的几何特性，获得符合文本提示的编辑结果并非易事。

为了让文本驱动的3D场景编辑也能够实现精准控制，美图影像研究院（MT Lab）与中国科学院信息工程研究所、北京航空航天大学、中山大学，共同提出了一种将文本描述和参考图像统一为编辑提示的CustomNeRF框架，可以通过微调预训练的扩散模型将参考图像中包含的特定视觉主体V∗嵌入到混合提示中，从而满足一般化和定制化的3D场景编辑要求。该研究成果目前已被CVPR 2024收录，代码已开源。

论文链接：https://arxiv.org/abs/2312.01663
代码链接：https://github.com/hrz2000/CustomNeRF

图1：CustomNeRF在文本驱动（左）和图像驱动（右）的编辑效果

CustomNeRF解决的两大挑战

目前，基于预训练扩散模型进行3D场景编辑的主流方法主要分为两类。

其一，是使用图像编辑模型迭代地更新数据集中的图像，但是受限于图像编辑模型的能力，会在部分编辑情形下失效。其二，则是利用分数蒸馏采样（SDS）损失对场景进行编辑，但由于文本和场景之间的对齐问题，这类方法在真实场景中无法直接适配，会对非编辑区域造成不必要的修改，往往需要mesh或voxel等显式中间表达。

此外，当前的这两类方法主要集中在由文本驱动的3D场景编辑任务中，文本描述往往难以准确表达用户的编辑需求，无法将图像中的具体概念定制化到3D场景中，只能对原始3D场景进行一般化编辑，因此难以获得用户预期中的编辑结果。

事实上，获得预期编辑结果的关键在于精确识别图像前景区域，这样能够在保持图像背景的同时促进几何一致的图像前景编辑。

因此，为了实现仅对图像前景区域进行准确编辑，该论文提出了一种局部-全局迭代编辑（LGIE）的训练方案，在图像前景区域编辑和全图像编辑之间交替进行。该方案能够**准确定位图像前景区域，并在保留图像背景的同时仅对图像前景进行操作**。

此外，在由图像驱动的3D场景编辑中，存在因微调的扩散模型过拟合到参考图像视角，所造成的编辑结果几何不一致问题。对此，该论文设计了一种类引导的正则化，在局部编辑阶段仅使用类词来表示参考图像的主体，并利用预训练扩散模型中的一般类先验来促进几何一致的编辑。

CustomNeRF的整体流程

如图2所示，CustomNeRF通过3个步骤，来实现在文本提示或参考图像的指导下精确编辑重建3D场景这一目标。

图2 CustomNeRF 的整体流程图

首先，在重建原始的3D场景时，CustomNeRF引入了额外的mask field来估计除常规颜色和密度之外的编辑概率。如图2（a）所示，对于一组需要重建3D场景的图像，该论文先使用Grouded SAM从自然语言描述中提取图像编辑区域的掩码，结合原始图像集训练foreground-aware NeRF。在NeRF重建后，编辑概率用于区分要编辑的图像区域（即图像前景区域）和不相关的图像区域（即图像背景区域），以便于在图像编辑训练过程中进行解耦合的渲染。

其次，为了统一图像驱动和文本驱动的3D场景编辑任务，如图2（b）所示，该论文采用了Custom Diffusion的方法在图像驱动条件下针对参考图进行微调，以学习特定主体的关键特征。经过训练后，特殊词V∗可以作为常规的单词标记用于表达参考图像中的主体概念，从而形成一个混合提示，例如“a photo of a V∗ dog”。通过这种方式，CustomNeRF能够对自适应类型的数据（包括图像或文本）进行一致且有效的编辑。

在最终的编辑阶段，由于NeRF的隐式表达，如果使用SDS损失对整个3D区域进行优化会导致背景区域发生显著变化，而这些区域在编辑后理应与原始场景保持一致。如图2（c）所示，该论文提出了局部-全局迭代编辑（LGIE）方案进行解耦合的SDS训练，使其能够在编辑布局区域的同时保留背景内容。

具体而言，该论文将NeRF的编辑训练过程进行了更精细的划分。借助foreground-aware NeRF，CustomNeRF可以在训练中灵活地控制NeRF的渲染过程，即在固定相机视角下，可以选择渲染前景、背景、以及包含前景和背景的常规图像。在训练过程中，通过迭代渲染前景和背景，并结合相应的前景或背景提示，可以利用SDS损失在不同层面编辑当前的NeRF场景。其中，局部的前景训练使得在编辑过程中能够只关注需编辑的区域，简化复杂场景中编辑任务的难度；而全局的训练将整个场景考虑在内，能够保持前景和背景的协调性。为了进一步保持非编辑区域不发生改变，该论文还利用编辑训练前的背景监督训练过程中所新渲染的背景，来保持背景像素的一致性。

此外，图像驱动3D场景编辑中存在着加剧的几何不一致问题。因为经过参考图像微调过的扩散模型，在推理过程中倾向于产生和参考图像视角相近的图像，造成编辑后3D场景的多个视角均是前视图的几何问题。为此，该论文设计了一种类引导的正则化策略，在全局提示中使用特殊描述符V*，在局部提示中仅使用类词，以利用预训练扩散模型中包含的类先验，使用更几何一致的方式将新概念注入场景中。

实验结果

如图3和图4展示了CustomNeRF与基线方法的3D场景重建结果对比，在参考图像和文本驱动的3D场景编辑任务中，CustomNeRF均取得了不错的编辑结果，不仅与编辑提示达成了良好的对齐，且背景区域和原场景保持一致。此外，表1、表2展示了CustomNeRF在图像、文本驱动下与基线方法的量化比较，结果显示在文本对齐指标、图像对齐指标和人类评估中，CustomNeRF均超越了基线方法。

图3 图像驱动编辑下与基线方法的可视化比较

图4 文本驱动编辑下与基线的可视化比较

表1 图像驱动编辑下与基线的定量比较

表2 文本驱动编辑下与基线的定量比较

总结

本论文创新性地提出了CustomNeRF模型，同时支持文本描述或参考图像的编辑提示，并解决了两个关键性挑战——精确的仅前景编辑以及在使用单视图参考图像时多个视图的一致性。该方案包括局部-全局迭代编辑（LGIE）训练方案，使得编辑操作能够在专注于前景的同时保持背景不变；以及类引导正则化，减轻图像驱动编辑中的视图不一致，通过大量实验，也验证了CustomNeRF在各种真实场景中，能够准确编辑由文本描述和参考图像提示的3D场景。

研究团队

该研究成果由美图影像研究院（MT Lab）和中国科学院信息工程研究所、北京航空航天大学、中山大学的研究者们共同提出。

美图影像研究院（MT Lab）是美图公司致力于计算机视觉、机器学习、增强现实、云计算等领域的算法研究、工程开发和产品化落地的团队，为美图秀秀、美颜相机、Wink、美图设计室、美图云修、WHEE等美图旗下全系软硬件产品提供技术支持，同时面向影像行业内多个垂直赛道提供针对性SaaS服务，通过前沿技术推动美图产品发展，曾先后荣获国家科学技术进步奖、教育部技术发明奖，同时在CVPR、ICCV、ECCV等国际计算机视觉顶级赛事中斩获十余项冠亚军奖项，并在人工智能领域顶级会议与顶级期刊上累计发表49篇学术论文。

2023年，美图公司持续持续深入AI领域，研发投入6.4亿元，占总收入的23.6%，同年6月，正式推出美图奇想大模型（MiracleVision），依托强大技术能力，在不到半年时间已经迭代至4.0版本。未来，美图影像研究院（MT Lab）将加强AI能力储备，在技术端持续强化模型能力，助力构建AI原生工作流。

3D编辑 NeRF

明敏

仅需文本或图像精准编辑3D场景，CustomNeRF入选CVPR 2024

背景

CustomNeRF解决的两大挑战

CustomNeRF的整体流程

实验结果

总结

研究团队

相关阅读

基于NeRF的APP上架苹果商店！照片转3D只需一部手机，网友们玩疯了

卫星图片重建旧金山3D模型，效果就像谷歌地球，港中大团队提出CityNeRF

苹果把NeRF玩出新高度：用单个10s视频，就能重构人物动作和场景

一个NeRF搞定全尺度：港中大团队BungeeNeRF从单建筑到地球都能渲染｜ECCV2022

英伟达馋哭建模师！投喂随意视频，直出3D模型，华人一作登CVPR 2023

本科生新算法打败NeRF，不用神经网络照片也能动起来，提速100倍｜开源

热门文章

DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

联想百应智能体入选量子位“2025年值得关注的AIGC产品”：国内首个AI服务智能体打破中小企业AI落地困局

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不再需要GPT了

发放1亿元代金券！商汤大装置SenseCore 2.0全新升级

3分钟搭建一个调用支付宝的智能体，MCP爆发，蚂蚁推了一把