入门级统计课程告诉我们,在将模型拟合到某些数据时,与自由参数相比,我们应该拥有更多的数据,以避免过度拟合的危险-过于嘈杂地拟合嘈杂的数据,从而无法拟合新数据。因此,令人惊讶的是,在现代深度学习中,这种做法要比数据提供更多数量级的参数。尽管如此,深度网络仍显示出良好的预测性能,并且实际上,它们拥有的参数越多,效果就越好。为什么会这样呢?
一段时间以来,众所周知,机器学习中的良好性能来自控制网络的复杂性,这不仅是自由参数数量的简单函数。分类器(例如神经网络)的复杂性取决于测量该网络所代表的功能空间的“大小”,并采用了先前建议的多种技术措施:Vapnik–Chervonenkis维度(涵盖数字)或Rademacher复杂度一些。
这些概念所衡量的复杂性可以在学习过程中通过对参数范数施加约束来控制,即简而言之,即参数可以达到的“大”程度。令人惊讶的事实是,在训练深度网络时似乎不需要这种明确的约束。深度学习是否在经典学习理论之外?我们需要重新考虑基础吗?
在《自然通讯》的新论文“深度网络中梯度下降的复杂性控制”中,由麻省理工学院脑与认知科学系的尤金·麦克德莫特教授托马索·波焦(Tomaso Poggio)主任领导的大脑,思维和机器中心的团队,通过解决现代深度学习最实用,最成功的应用:分类问题,为这个难题提供了一些启示。
“对于分类问题,我们观察到,实际上模型的参数似乎没有收敛,而是在梯度下降期间无限期地增长。但是,在分类问题中,仅归一化参数很重要-即,它们定义的方向,而不是它们的大小,”合著者和MIT博士候选人廖倩丽说。“我们展示的不太明显的是,未归一化参数上常用的梯度下降导致对归一化参数进行所需的复杂度控制。”
“一段时间以来,对于诸如内核机之类的浅层线性网络,我们已经知道,梯度下降的迭代提供了隐式,消失的正则化效果,” Poggio说。“实际上,在这种简单情况下,我们可能知道我们得到了性能最好的最大边距,最小范数解决方案。那么,我们问自己的问题是:深层网络会发生类似的事情吗?”
研究人员发现确实如此。正如合著者和麻省理工学院的博士后Andrzej Banburski所解释的那样:“对深度网络的了解表明,有明确的方向来改进我们的算法。实际上,我们已经看到暗示,控制这些未归一化参数的发散速率可以使我们找到性能更好的解决方案,并更快地找到它们。”
这对机器学习意味着什么?深度网络背后没有魔力。所有线性模型背后的相同理论也在这里发挥作用。这项工作提出了改进深层网络的方法,使它们更准确,更快速地进行训练。