导读歌手使用各种技巧,例如颤音和呼吸声效果,来表达他们的特点和情感。这些技术的自动分类是一个新兴的研究课题。然而,目前的方法有几个问题...
歌手使用各种技巧,例如颤音和呼吸声效果,来表达他们的特点和情感。这些技术的自动分类是一个新兴的研究课题。然而,目前的方法有几个问题。
更多定制的卷积神经网络(CNN) 内核可能会改善特征提取,但对最佳内核形状的强力搜索将是繁重的。此外,由于某些歌唱技巧很难长时间产生,因此收集均衡的样本是有问题的。
arXiv.org 最近的一篇论文提出通过可变形卷积和使用类加权损失的分类器重新训练来处理这些问题。可变形卷积有助于捕捉歌唱技巧中的动态时频特征。当训练数据的类分布具有长尾时,分类器重新训练是一种强大的方法。
实验表明,所提出的技术提高了分类性能。