Plenoxels在几分钟内将2D图像转换为可导航逼真的3D世界

导读想象一下用你的手机拍几张照片,然后快速将它们转换成你可以导航的3D场景。加州大学伯克利分校研究人员开发的一项新技术可能很快实现这一点...

想象一下用你的手机拍几张照片,然后快速将它们转换成你可以导航的3D场景。加州大学伯克利分校研究人员开发的一项新技术可能很快实现这一点,该技术可以在几分钟内重建逼真的3D世界——无需人工智能的帮助。

这项被称为Plenoxels的新技术是从NeRF演变而来的,NeRF是加州大学伯克利分校研究人员开发的最先进的3D渲染技术。然而,Plenoxels在各个方面都超过了NeRF——从速度到图像质量——这可能会扩大它们在消费者、工业和科学应用方面的潜力。

“NeRF很酷,但恢复3D场景需要一整天,”电气工程和计算机科学教授AngjooKanazawa说,她将在IEEE/CVF计算机视觉和模式识别(CVPR)上展示她团队的Plenoxels论文会议。“然而,Plenoxels通过摆脱神经网络,使训练变得快速而实用。”

NeRF是神经辐射场的缩写,它在两年前开发时彻底改变了3D渲染。它利用神经网络(类似于人脑中的神经元以识别数据模式的计算节点系统)的力量提供了远优于当时其他技术的逼真体验。

在NeRF之前,3D渲染技术会拍摄一个场景的多张图片,并通过匹配图像特征来找到图像中相同的部分。必须对图像的许多部分进行此匹配过程以重建场景。但是这些技术无法在没有良好匹配的情况下重建部分场景,当存在闪亮或透明物体时可能会发生这种情况。

“NeRF帮助解决了这个问题。我们没有使用传统方法来匹配图像之间的内容,而是使用神经网络进行这些优化,”博士MatthewTancik说。Kanazawa实验室的学生和作为新Plenoxels研究的原始NeRF论文的合著者。“NeRF使重建这些复杂场景变得更加实用,并允许我们重建一个3D场景,您可以像玩电子游戏一样探索它。”

使用NeRF,优化3D表示所需的唯一输入是一组具有已知相机姿势的图像。使用经典的体积渲染技术,NeRF可以渲染复杂场景的逼真视图。

“NeRF的效果出奇的好,但速度很慢,因为神经网络很复杂,需要大量时间来优化,”Tancik说。“这就是像Plenoxels这样的后续工作的用武之地。”

在开发Plenoxels之前,Kanazawa和她的团队创建了PlenOctrees。八叉树是划分3D空间的数据树结构,在这种情况下,具有全光(或色移)特性。

PlenOctrees使用神经网络来训练或推断3D场景,然后将其转换为全光八叉树进行渲染。这导致了更快的计算,从而实现了实时渲染。

然后研究人员想知道是否可以在没有神经网络的情况下执行这两个步骤——训练和渲染。他们发现Plenoxels可以做到这一点。

在计算机图形的层次结构中,Plenoxels处于维度的顶点:像素是2D图像元素;体素是3D体积元素;Plenoxels(全光体素)是体积元素,它们会根据观察角度改变颜色。

Plenoxel网格由微小的块组成,就像那些用于创建Minecraft世界的块一样,除了Plenoxel提供了另一个级别的维度:与视图相关的颜色。如果您缩小并同时查看这些块,您会看到一个高分辨率的3D世界。但近距离看,在它的核心,你只会看到可以改变颜色的小块。

伯克利研究小组的其他成员是AlexYu、SaraFridovich-Keil、QinhongChen和电气工程和计算机科学教授BenjaminRecht。在Plenoxels研究中,研究人员研究了神经网络是否对于渲染优化是必要的。

“问题是:我们能否保留所有与NeRF一起工作的东西,但改变这个辐射场的基本表示?”坦奇克说。“我们不是让辐射场成为这个黑盒神经网络,而是让这个表示成为一个由小Plenoxels组成的网格。”

最初,经过几次不成功的尝试,人们对Plenoxels是否真的有效存在一些疑问,但Yu和Fridovich-Keil坚持了下来。“我们在夏天休息了一段时间,然后有一天他们尝试使用三线性插值,”金泽说。“突然之间,事情开始奏效了。”

三线性插值取相邻块的平均值,而不是用一个块或体素表示空间中的给定点。这可以平滑辐射场,提高生成的3D渲染的分辨率,而不会出现神经网络的时滞。

“通过一些调整,我们能够移除神经网络并真正加快训练过程,”Tancik说。“我没想到这些方法会这么快。现在只需几分钟就可以创建这些非常逼真的渲染,而不是花一整天的时间,这使得它们在一系列应用中更加实用。”

Plenoxels有可能用于创建虚拟和增强现实显示器。例如,与如今观众固定在一个地方的虚拟房地产游览不同,Plenoxels创建的游览将通过允许观众四处走动并从他们的计算机或AR/VR设备充分探索环境来增强体验。

消费者还可以使用Plenoxels来创建和分享个人记忆,为观众提供更加身临其境的体验。“通过这项技术,您可以完全恢复您所处的环境,以便您在未来重新探索它,”Tancik说。“能够在环境或记忆中导航,使其感觉比照片或视频更真实或更切实。”

正如金泽所想象的那样,消费者不需要专门的设备来捕捉这些记忆。“我认为这将是照片或视频的新版本,”金泽说。“如果你可以通过iPhone拍摄这些视频,并以3D甚至4D的形式探索和捕捉你的记忆呢?从这个意义上说,我认为它非常容易获得。”

因为Plenoxels允许我们模拟世界,所以它们在工业中也有潜在的应用。自动驾驶汽车公司可以使用这项技术来模拟他们的汽车在环游世界时会看到什么。同样,机器人可以使用Plenoxels来提取世界的3D几何图形,以防止与其他物体发生碰撞。

据Kanazawa称,Plenoxels甚至可以用于科学研究,可能与遥感等技术相结合。她设想有一天生态学家会使用Plenoxels调查森林,以分析树木的密度和生态系统的整体健康状况。

展望机器学习

Kanazawa指出,尽管这项研究表明基于Plenoxels的技术不需要神经网络将照片转换为可探索的3D世界,但如果人们希望将该技术用于需要学习的任务,则可能需要人工智能。她相信这是Plenoxels的下一步。

“我认为下一个有趣的事情是将学习融入这个过程,这样你就可以用更少的图片和更少的观察来做类似的事情,”金泽说。“我们利用我们以前对世界的经验来感知新的图像。这就是真正的机器学习的用武之地。现在我们已经使3D渲染过程更加实用,我们可以开始考虑它了。”

免责声明:本文由用户上传,如有侵权请联系删除!