来自能源部橡树岭国家实验室、GoogleInc.、SnowflakeInc.和VervericaGmbH的一组合作者测试了一种计算概念,可以帮助加快移动和其他电子设备上流式传输的数据的实时处理速度。
这个概念探索了水印的功能,被认为是跟踪流数据处理完成程度的最有效机制。水印允许在先前任务完成后立即处理新任务。
为了更好地了解水印的用途,研究人员研究了在两个不同的数据流处理系统上的数据流计算。他们在8月在丹麦哥本哈根举行的第47届超大型数据库国际会议上展示了这些结果,并进行了虚拟演示。他们提交的论文是最早在基础研究环境中正式测试和检查水印的论文之一。
ORNL国家安全科学局人工智能系统部门负责人EdmonBegoli表示:“目前还没有一种明确、有效的机制来跟踪数据流中感兴趣的现象随时间跨过不同的数据处理管道。”“水印是一个新兴的概念,它推进了流处理框架的最新技术。”
计算机科学家一直在寻找研究实时数据的方法,以便他们能够更好地预测消费者需求、估计供需并向消费者提供更准确的信息。但在过去10年中,数据管理变得越来越具有挑战性。这一挑战部分是由于社交媒体网站、自动驾驶汽车等自主平台和移动设备上的实时计算和交互的飞跃。
为了确定不同平台如何有效地处理实时数据,该团队比较了目前支持它们最先进实现的两个平台的水印:ApacheFlink,一个开源流和批处理框架,以及谷歌云数据流,流分析服务。CloudDataflow是一个容错平台,针对在全球范围内并行处理流数据进行了优化。另一方面,Flink专为快速高效地处理数据流而构建,与CloudDataflow相比具有更高的性能。
Begoli说:“我们想看看它们在两种不同的实现上的表现如何,并看看它们对不同类型的流媒体服务有何用处。”
研究人员发现,CloudDataflow的水印传播往往具有更高的延迟——传输数据的延迟——并且Flink的延迟随着管道深度和计算节点数量的增加而非线性增长。但是,由同一社区构建的两个开源系统都提供了相似的用户体验。
Begoli说,水印最终比以前的流处理方法提供了更大的灵活性。在DOE和ORNL研究的背景下,它们将有助于分析复杂的网络事件以及从多个来源和不同时间尺度收集数据,例如来自测量健康统计、人类行为和运动或环境相互作用的传感器。
“通常,我们想要追踪的复杂事物太多了,”贝戈利说。“如果你想捕捉你感兴趣的所有表现形式,并知道一个事件在所有来源中的开始和结束时间,像水印这样的概念非常重要。”
未来,该团队将着眼于在不同的流数据源中泛化水印,并规范不同实现风格所产生的性能权衡,例如Flink与CloudDataflow架构风格所代表的那些。
这项研究利用了ORNL的内部资源。