无论何时进行科学实验,结果都会变成数字,通常会产生庞大的数据集。为了减小数据的大小,计算机程序员使用可以找到并提取代表最显着统计特性的主要特征的算法。但是许多这样的算法不能直接应用于这些海量数据。
得克萨斯州A&M大学计算机科学与工程系的博士生Reza Oftadeh在该系的Dylan Shell博士的指导下,开发了适用于大型数据集的算法。它是一种有用的机器学习工具,因为它可以从最显着的位置到最不重要的位置提取并直接对其进行排序。
“有许多使用机器学习算法来提取这些特征的临时方法,但是我们现在有了一个严格的理论证明,即我们的模型可以同时从数据中找到并提取这些突出的特征,而这一过程只需一次算法即可完成, ” Oftadeh说。
他们描述该研究的论文发表在2020年国际机器学习大会上的论文集中。
机器学习的一个子领域涉及组件分析,即识别和提取原始数据集特征以帮助降低其维数的问题。识别后,这些特征将用于制作数据的带注释的样本,以进行进一步分析或其他基于这些特征的机器学习任务,例如分类,聚类,可视化和建模。
寻找或开发这些类型的算法的工作在过去的一个世纪中一直在进行,但是使这个时代与众不同的是大数据的存在,大数据可以包含具有数以万计的属性的数以百万计的采样点。对于人类程序员而言,分析这些庞大的数据集是一个非常复杂且耗时的过程,因此,近年来,人工神经网络(ANN)成为了最前沿。
作为机器学习的主要工具之一,人工神经网络是一种计算模型,旨在模拟人脑如何分析和处理信息。它们通常由数十至数百万个人工神经元(称为单位)组成,它们排列在一系列层中,用于理解所提供的信息。人工神经网络可以以多种方式使用,但最常用于识别最能代表数据的独特功能,并根据该信息将其分类为不同的类别。
Oftadeh说:“有许多ANN可以很好地工作,我们每天在电话和计算机上使用它们。” “例如,Alexa,Siri和Google Translate等应用程序利用经过训练的ANN来识别不同的语音模式,口音和语音在说什么。”
但是,并非所有功能都具有同等重要的意义,可以按照从最重要到最不重要的顺序来排列它们。先前的方法使用一种称为自动编码器的特定类型的ANN来提取它们,但是它们无法准确分辨出特征的位置或哪个比其他特征更重要。
“例如,如果您有成千上万的维度,并且只想查找最重要的维度中的1000个,然后对那1000个进行排序,那么从理论上讲是可行的,但实际上不可行,因为该模型必须在数据集中重复运行一千次。”
为了使算法更智能,研究人员建议向网络中添加一个新的成本函数,以根据其相对重要性直接排序特征的确切位置。一旦合并,他们的方法将导致更有效的处理,可将其馈入更大的数据集以执行经典数据分析。
为了验证他们的方法的有效性,他们训练了他们的光学字符识别(OCR)实验模型,该模型是将数字打字文件或手写文本的图像从数字物理文档内部转换为机器编码的文本,例如扫描仪产生的图像。一旦使用提出的方法对OCR进行了训练,该模型就可以判断出哪些功能最重要。
当前,该算法只能应用于一维数据样本,但是该团队对扩展其算法的能力感兴趣,以处理甚至更复杂的结构化数据。
Oftadeh说:“直接分解多维数据是一个非常活跃,具有挑战性的数学研究领域,它本身也面临许多挑战,我们有兴趣进一步探索它。”
他们的下一步工作是通过提供统一框架的方式来概括他们的方法,以生成其他机器学习方法,这些方法可以通过设置少量规范来找到数据集的底层结构和/或提取其特征。
这项研究的其他贡献者包括计算机科学与工程系的博士生沉佳怡和得克萨斯大学奥斯汀分校的电气与计算机工程系的助理教授张阳“ Atlas”王博士。普林斯顿大学数学系助理教授鲍里斯·汉宁(Boris Hanin)博士对确定研究问题和指导Oftadeh也是有帮助的。
这项研究由美国国家科学基金会和美国陆军研究办公室青年研究人员奖资助。