导读观看电视节目后,人类可以回忆起房间的布局、家具的位置以及人物的相对高度。受这些功能的启发,arXiv.org最近的一篇论文提出了一种方法,...
观看电视节目后,人类可以回忆起房间的布局、家具的位置以及人物的相对高度。受这些功能的启发,arXiv.org最近的一篇论文提出了一种方法,该方法类似地聚合视频集合中的3D信息,并使用它来感知准确的3D人体姿势和演员的位置。
首先,大量的3D上下文(相机、结构和身体形状)在环境和人的重复域中被识别,并从视频序列中聚合。研究人员提出了一种将这种情况整合到3D人体估计方法中的公式,从而改进了人体重建。
这种形式的重新识别始终优于传统的基于图像的基线。聚合的3D信息还可用于凝视估计、电影摄影或图像编辑等任务。
电视节目描绘了各种各样的人类行为,并因其成为许多应用的丰富数据源的潜力而被广泛研究。然而,现有的大部分工作都集中在二维识别任务上。在本文中,我们观察到电视节目存在一定的持久性,即环境和人类的重复,这使得该内容的3D重建成为可能。基于这种洞察力,我们提出了一种自动方法,可以在整个电视节目季中运行,并以3D形式聚合信息;我们构建环境的3D模型,计算相机信息、静态3D场景结构和身体尺度信息。然后,我们展示了这些信息如何充当丰富的3D上下文,以指导和改善这些环境中3D人体姿势和位置的恢复。此外,我们表明,在3D中对人类及其环境进行推理可以实现广泛的下游应用:重新识别、注视估计、电影摄影和图像编辑。我们将我们的方法应用于七个标志性电视节目的环境,并对提议的系统进行广泛的评估。