通过网络内聚合快速进行机器学习

导读在高速网络设备中插入轻量级优化代码已使KAUST领导的协作能够将并行计算系统上的机器学习速度提高五倍。由英特尔,微软和华盛顿大学的研究

在高速网络设备中插入轻量级优化代码已使KAUST领导的协作能够将并行计算系统上的机器学习速度提高五倍。由英特尔,微软和华盛顿大学的研究人员和系统架构师开发的这种“网络内聚合”技术可以使用现成的可编程网络硬件显着提高速度。

人工智能(AI)的根本好处是,它具有足够的“理解”并与世界互动的能力,是机器学习步骤,其中使用大量带标签的训练数据来训练模型。对AI进行训练的数据越多,当暴露给新输入时,该模型就可能执行得越好。

近年来AI应用的激增很大程度上是由于更好的机器学习以及使用更大的模型和更多样化的数据集所致。但是,执行机器学习计算是一项非常艰巨的任务,越来越依赖并行运行学习算法的大型计算机。

KAUST研究团队的Marco Canini说:“如何大规模训练深度学习模型是一个非常具有挑战性的问题。” “ AI模型可以包含数十亿个参数,我们可以使用数百个需要有效并行工作的处理器。在这样的系统中,增量模型更新期间的处理器之间的通信很容易成为主要的性能瓶颈。”

团队发现了由英特尔子公司Barefoot Networks开发的新网络技术的潜在解决方案。

“我们使用Barefoot Networks的新型可编程数据平面网络硬件来减轻在分布式机器学习培训中完成的部分工作,” KAUST校友Amedeo Sapio解释说,此后加入英特尔的Barefoot Networks团队。“使用这种新的可编程网络硬件而不只是网络来移动数据意味着我们可以沿着网络路径执行计算。”

团队的SwitchML平台的关键创新是允许网络硬件在机器学习过程的模型更新阶段的每个同步步骤执行数据聚合任务。这不仅减轻了部分计算负荷,而且还大大减少了数据传输量。

Canini说:“尽管可编程交换机数据平面可以非常快速地执行操作,但是它可以执行的操作受到限制。” “因此,我们的解决方案必须在硬件上足够简单,但又要足够灵活以解决诸如板载内存容量有限之类的挑战。SwitchML通过共同设计通信网络和分布式训练算法来解决这一挑战,实现高达5.5的加速与最先进的方法相比。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢