实施用于机器学习的光子张量核心

导读乔治华盛顿大学的研究人员报告了一种构建光子张量核心的方法,该方法利用相变光子存储器来实现神经网络(NN)。他们的新颖架构已于上周在《

乔治华盛顿大学的研究人员报告了一种构建光子张量核心的方法,该方法利用相变光子存储器来实现神经网络(NN)。他们的新颖架构已于上周在《 AIP应用物理评论》(AIP Applied Physics Review)上在线报道,与传统的GPU和其他张量核心设备相比,有望实现性能提升和功耗优势。虽然已经探索了几种光子神经网络设计,但用于执行张量操作的光子张量核心尚未实现。

光子学[i]涵盖了广泛的光技术,涵盖了通过混合光电技术跨越光纤的各种技术。例如,光学互连技术是提高内存到处理器乃至处理器到处理器带宽的重要研究领域。高带宽和低功耗是光子学的吸引力。

在他们的 论文中, 用于机器学习的光子张量核心,Mario Miscuglio和Volker Sorger认为,在异构计算时代,基于光子的专用处理器具有增强电子系统的巨大潜力,并且可能在网络边缘设备以及5G通信。例如,用于推理的预训练光子张量核心神经网络将消耗很少的功率。

Miscuglio告诉 HPCwire:“除了直接在光域中工作可以提高速度和带宽外,还利用光纤中信号传播的固有光学特性,使用光子架构的优势是执行推理的功耗更低这对于智能光学低功耗传感器很有用。”

广义上讲,神经网络大量使用矩阵向量乘法。毫不奇怪,在这种计算方式下,最新的GPU和TPU比CPU更好。研究人员在论文中很好地总结了挑战:

“对于提供高计算灵活性的通用处理器,这些矩阵运算是串行(即一次一次)进行的,同时需要连续访问高速缓存,因此产生了所谓的”冯·诺依曼瓶颈”。已经设计出了用于神经网络的专用架构,例如图形处理单元(GPU)和张量处理单元(TPU),以减少冯·诺依曼瓶颈的影响,从而实现尖端的机器学习模型。这些架构的范例是提供域特定性,例如对卷积进行优化或与CPU不同的是执行并行运算的矩阵向量乘法(MVM),从而并行部署 脉动算法。

“ GPU具有针对矩阵数学运算而优化的数千个处理核心,可提供数十至数百个TFLOPS(层级浮点运算)的性能,这使GPU成为基于深度NN的AI和ML应用程序的显而易见的计算平台。GPU和TPU相对于CPU尤其有利,但是当用于在大型二维数据集(例如图像)上执行深度NN执行推理时,它们非常耗电,并且需要更长的计算时间(>几十毫秒)。此外,用于不太复杂的推理任务的较小矩阵乘法[例如,美国国家标准与技术研究院数据库的手写数字的分类]仍然受到不可忽略的延迟的挑战,

他们提出了一种在光子学中实现的张量核心单元,它依赖于光子复用(WDM,波分复用)​​信号,“经过滤波后,使用基于在 波导上构图的Ge 2 Sb 2 Se 5导线的工程化多态光子存储器进行加权后加权。通过使用钨电极引起的焦耳热的电热切换,通过有选择地改变导线的相(非晶/晶体)来对光子存储器进行重新编程。如果需要,可以并行(几微秒)实现光子存储器编程,或者,该光子张量核心可以作为具有预设置内核矩阵的无源系统来运行。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢