弥合人与机器视觉之间的鸿沟

导读研究人员通过研究人类视觉如何响应物体的不断变化的视点,开发出更强大的机器视觉架构。假设您从几英尺远的地方短暂看过一个从未见过的人。

研究人员通过研究人类视觉如何响应物体的不断变化的视点,开发出更强大的机器视觉架构。假设您从几英尺远的地方短暂看过一个从未见过的人。退后几步,再看一次。你能认出她的脸吗?“是的,当然。”您可能在想。如果这是真的,那么这意味着我们的视觉系统已经看到了一个物体(例如特定面部)的单个图像,例如,尽管该物体的位置和比例发生了变化,但仍能可靠地识别该图像。

另一方面,我们知道最先进的分类器(例如香草深层网络)将无法通过此简单测试。

为了识别一系列变换下的特定面部,需要使用在不同条件下的许多面部示例来训练神经网络。换句话说,它们可以通过记忆实现不变性,但是如果只有一张图像可用则无法做到这一点。因此,了解人类的视觉如何实现这一非凡的成就对于旨在改进其现有分类器的工程师而言至关重要。

这对于神经科学家用深度网络对灵长类动物视觉系统进行建模也很重要。特别是,与生物网络相比,生物视觉表现出的一键式学习不变性可能需要一种截然不同的计算策略。

麻省理工学院电气工程与计算机科学博士学位的候选人Yena Han及其同事在《自然科学报告》中发表了一篇题为“人类视觉中新对象的尺度和平移不变性”的新论文,讨论了他们如何更仔细地研究这种现象以创建新颖的,受生物启发的网络。

与深层网络不同,人类可以从很少的例子中学到东西。这是一个巨大的差异,对视觉系统的工程设计和理解人类视觉如何真正起作用具有重大意义。和麻省理工学院的认知科学。“造成这种差异的主要原因是灵长类动物视觉系统在缩放,移动和其他变换方面的相对不变性。奇怪的是,这在AI社区中几乎被忽略了,部分原因是到目前为止,心理物理数据还不够清晰。Han的工作现在已经建立了对人类视觉基本不变性的可靠测量。”

为了区分固有计算中的不变性与经验和记忆中的不变性,新的研究测量了一次学习中不变性的范围。通过向不熟悉该语言的人类受试者呈现韩国字母刺激来执行一次学习任务。这些字母最初是在一种特定条件下单次出现的,并在与原始条件不同的比例或位置上进行了测试。第一个实验结果是-正如您所猜想的那样,仅一次接触这些新颖的物体,人类就显示出明显的尺度不变识别。第二个结果是位置不变的范围受到限制,具体取决于对象的大小和位置。

接下来,Han和她的同事们在旨在重现这种人类行为的深度神经网络中进行了可比的实验。结果表明,为解释人类对物体的不变识别,神经网络模型应明确纳入内置的尺度不变性。此外,通过使模型神经元的感受野越远离视场中心,其视觉视野的位置不变性就越能在网络中得到更好的复制。该体系结构与常用的神经网络模型不同,在后者中,使用相同的共享滤镜以统一的分辨率处理图像。

“我们的工作为不同观点下的对象的大脑表示提供了新的理解。CBMM研究人员,该研究的主要作者Han表示:“这也对AI产生了影响,因为研究结果为深度神经网络的良好架构设计提供了新见解。

Han和Poggio以及Gemma Roig和Gad Geiger共同参与了这项工作。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢