在现场或远程报道体育比赛时,评论员应该能够快速识别球员球衣上的数字,因为这使他们能够跟上正在发生的事情并将其传达给观众。然而,在体育视频中快速识别球员并不总是那么容易,因为这些视频通常是在远处拍摄以捕捉比赛的整体进程。另一个困难是广播摄像机的快速运动通常会导致运动模糊。
滑铁卢大学的研究人员最近开发了一种机器学习技术,可以在从广播体育视频中提取的图像中自动识别球员的球衣号码。这项技术在arXiv上预先发表的一篇论文中提出,可以帮助比其他现有计算方法更快、更有效地识别体育赛事期间球队球员的球衣号码。
“现有文献中的运动球衣号码识别网络将球衣号码识别视为一个分类问题,并且要么(1)将球衣号码视为单独的类别(整体表示),要么(2)将球衣号码中的两位数字视为两个独立的类别(数字表示),”进行这项研究的研究人员之一卡纳夫瓦茨告诉TechXplore。“例如,球衣号码'12'可以通过将'12'作为一个单独的类别进行建模,也可以将号码'12'分成两个组成数字'1'和'2'并将这两个数字视为单独的类别.”
过去的研究发现,学习多个输出表示可以提高深度神经网络的性能。换句话说,经过训练以专注于他们正在学习完成的任务的不同方面的神经网络被发现比专注于任务的各个方面的神经网络表现更好。
“基于Resnet34骨干网络的输入是单人图像,”Vats说。“网络输出三个概率向量。第一个是将数据集中的每个球衣号码视为一个单独的类别,第一个是图像中出现的球衣号码的概率,第二个是球衣号码中第一位数字的概率分布,第三个是是球衣号码第二位的概率。”
研究人员用他们关注的三个输出的交叉熵损失的加权和来训练他们的神经网络。当他们测试他们的网络时,他们发现学习数字的整体(例如,“12”)和数字(例如,“12”中的“1”和“2”)表示显着提高了他们的网络识别球衣号码的能力.事实上,他们的多任务学习方法优于其他只专注于整体表示或数字表示的技术。
“‘当我们提出的多任务损失函数网络插入之前研究中引入的网络时,它表现出显着的性能提升,”Vats说。“值得注意的是,多任务损失函数也很容易在现代深度学习库(例如Pytorch)中实现,并且可以用于其他运动(例如足球)中的球衣号码识别。”
未来,这组研究人员开发的神经网络可以帮助更快、更有效地自动识别体育视频中的球衣号码。此外,Vats和他的同事编译了一个新的数据集,其中包含54,251张NHL球员及其球衣号码的注释图像,可用于训练其他技术以进行球衣号码和球员识别。
在接下来的研究中,研究人员计划进一步改进他们的球衣号码和球员识别系统。例如,他们想设计一个神经网络,在尝试确定他们的身份时,该网络还考虑了冰球运动员在溜冰场上的位置。
“目前的研究没有考虑时间背景,因此我们未来的工作将旨在通过使用时间视频数据从广播剪辑中推断球衣号码来提高球员识别能力,”瓦茨说。“这可以通过一个可以直接处理视频的时间卷积网络来完成。提议的多任务损失函数将被纳入时间网络。”