导读从单个图像合成新的视图是计算机视觉中越来越流行的任务。然而,大多数当前方法仅在有限的摄像机运动范围内生成视图,并且不能例如合成门外
从单个图像合成新的视图是计算机视觉中越来越流行的任务。然而,大多数当前方法仅在有限的摄像机运动范围内生成视图,并且不能例如合成门外的内容。
最近发表在arXiv.org上的一篇论文建议在给定3D场景的单个图像和长期摄像机轨迹作为输入的情况下合成一致的视频。
提出了一种新颖的Transformer模型来合成一致的长期视频。所提出的方法不是在场景的两个视图之间学习自回归模型,而是利用视频的连续性。此外,引入了一个新的局部性约束来指导模型专注于关键依赖关系并促进训练。
实验结果表明,所提出的方法不仅优于最先进的方法,而且在远程未来帧上取得了显着更好的增益。
从单张图像合成新的视图最近引起了很多关注,它主要是通过3D深度学习和渲染技术来推进的。然而,大多数工作仍然受到在相对较小的相机运动中合成新视图的限制。在本文中,我们提出了一种新颖的方法,可以在给定单个场景图像和大型摄像机运动轨迹的情况下合成一致的长期视频。我们的方法利用自回归变换器来执行多帧的顺序建模,这会导致多帧和相应摄像机之间的关系来预测下一帧。为了促进学习并确保生成的帧之间的一致性,我们引入了基于输入摄像机的局部性约束,以引导跨空间和时间的大量补丁之间的自注意。我们的方法在很大程度上优于最先进的视图合成方法,尤其是在合成室内3D场景的长期未来时。