用于视频接地的视频语言图匹配网络

导读2021年12月31日整理发布:视频基础是一项必须确定与语言查询相关的时刻的任务。最近这项任务的一种方法建议使用图的能力来编码视频片段和语

2021年12月31日整理发布:视频基础是一项必须确定与语言查询相关的时刻的任务。最近这项任务的一种方法建议使用图的能力来编码视频片段和语言标记关系。语言和视频模态之间的信息交换是通过基于图注意力的匹配机制实现的。

视频图由节点处的片段构成,边缘表示时间和非局部语义关系。在语言图中,每个节点都是一个标记,每个边代表句法依赖。基于注意力的图匹配层通过图卷积网络将不同的模态融合在一起,并确保它们之间的精确对齐。在掩蔽注意力池操作的帮助下选择相关时刻。实验表明,所建议的方法超越了当前最先进的视频接地模型。

视频中的基础语言查询旨在识别与语言查询语义相关的时间间隔(或时刻)。这项具有挑战性的任务的解决方案需要理解视频和查询的语义内容以及对其多模态交互的细粒度推理。我们的主要想法是将这一挑战重新转化为算法图匹配问题。在图神经网络的最新进展的推动下,我们建议利用图卷积网络对视频和文本信息以及它们的语义对齐进行建模。为了实现跨域的相互信息交换,我们设计了一种新颖的视频语言图匹配网络 (VLG-Net) 来匹配视频和查询图。核心成分包括表示图,分别建立在视频片段和查询标记之上,用于对模态内关系进行建模。采用图匹配层进行跨模态上下文建模和多模态融合。最后,通过融合时刻丰富的片段特征,使用掩蔽时刻注意池创建时刻候选。我们在三个广泛使用的数据集上展示了优于最先进的基础方法的性能,这些数据集用于使用自然语言查询的视频时刻的时间定位:ActivityNet-Captions、TACoS 和 DiDeMo。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢