导读当前从单个未定位图像合成新视图的方法对于靠近输入视图的目标视图效果很好,但是当目标视图移动得更远时,渲染质量会下降。arXiv.org最近...
当前从单个未定位图像合成新视图的方法对于靠近输入视图的目标视图效果很好,但是当目标视图移动得更远时,渲染质量会下降。arXiv.org最近的一篇论文提出了一种解决这个问题的新方法。研究人员利用视觉转换器(ViT)和神经辐射场(NeRF)的最新进展来学习更好的3D表示。
首先,ViT用于学习全局信息。2D卷积神经网络提取局部特征,从输入图像中捕获细节和外观。最后,体积渲染技术渲染了新颖的视点。
所提出的方法以比其竞争对手更准确的结构和更精细的细节呈现看不见的区域。在特定类别和与类别无关的数据集以及真实输入图像上展示了最先进的性能。
尽管神经辐射场(NeRF)在新颖的视图合成方面显示出令人印象深刻的进步,但大多数方法通常需要同一场景的多个输入图像和准确的相机姿势。在这项工作中,我们寻求大幅减少对单个未定位图像的输入。现有方法以局部图像特征为条件来重建3D对象,但通常在远离源视图的视点处呈现模糊预测。为了解决这个问题,我们建议利用全局和局部特征来形成富有表现力的3D表示。全局特征是从视觉转换器中学习的,而局部特征是从2D卷积网络中提取的。为了合成一个新颖的视图,我们训练了一个多层感知器(MLP)网络,该网络以学习到的3D表示为条件来执行体积渲染。这种新颖的3D表示允许网络在不强制执行对称或规范坐标系等约束的情况下重建看不见的区域。我们的方法可以仅从单个输入图像中渲染新颖的视图,并使用单个模型在多个对象类别中进行泛化。定量和定性评估表明,与现有方法相比,所提出的方法实现了最先进的性能并呈现更丰富的细节。