无论何时进行科学实验,结果都会转化为数字,往往产生大量的数据集。为了减少数据的大小,计算机程序员使用的算法可以找到和提取代表最显著统计特性的主要特征。但是许多这样的算法不能直接应用于海量数据。
德克萨斯州 A&M 大学计算机科学与工程系的博士生 Reza Oftadeh 在该系的 Dylan Shell 博士的指导下,开发了一种适用于大型数据集的算法。它是一种有用的机器学习工具,因为它可以从最显着的位置到最不重要的位置提取并直接对其进行排序。
机器学习算法提取数据特征
Oftadeh 说: “有许多使用机器学习算法来提取这些特征的临时方法,但是我们现在有了一个非常严格的理论证明,即我们的模型可以同时从数据中找到并提取这些突出的特征,而这一过程只需一次算法即可完成。”
他们描述这项研究的论文发表在2020年机器学习国际会议的会议记录上。
机器学习的一个子领域涉及组件分析,即识别和提取原始数据集的特征以帮助降低其维数的问题。一旦识别出特征,这些特征将被用来对数据进行标注样本,以便进一步分析或执行其他机器学习任务,如根据这些特征进行分类、聚类、可视化和建模。
寻找或开发这些类型的算法的工作已经持续了一个世纪,但是使这个时代与众不同的是大数据的存在,大数据可以包含具有数万个属性的数以百万计的采样点。对于人类程序员来说,分析这些庞大的数据集是一个非常复杂、耗时的过程,因此近年来人工神经网络已经成为研究的热点。
人工神经网络作为机器学习的主要工具之一,是用来模拟人脑如何分析和处理信息的计算模型。它们通常由数十到数百万的人造神经元组成,被称为单元,以一系列的层次排列,用来理解所给出的信息。人工神经网络可以以各种方式使用,但它们最常用于确定最能代表数据的独特特征,并根据该信息将其分类。
Oftadeh 说: “有很多人工神经网络工作得很好,我们每天都在手机和电脑上使用它们。”。“例如,Alexa、 Siri 和谷歌翻译等应用程序利用人工神经网络来识别不同的语音模式、口音和声音。”
但并不是所有的特性都同样重要,它们可以按照从最重要到最不重要的顺序排列。以前的方法使用一种特定类型的人工神经网络(称为自动编码器)来提取特征,但是他们不能准确地说出特征的位置或者哪些特征比其他特征更重要。
Oftadeh 说: “例如,如果你有成千上万的维度,只想找到最突出的 1000 个,然后排序那 1000 个,理论上是可行的,但实际上不可行,因为这个模型必须在数据集上重复运行 1000 次。”
让算法更智能,统一框架生成不同机器学习方法
为了使算法更智能,研究人员建议向网络中添加新的成本函数,以根据其相对重要性直接排序特征的确切位置。一旦合并,他们的方法将导致更有效的处理,可以提供更大的数据集来执行经典的数据分析。
为了验证他们的方法的有效性,他们为光学字符识别(OCR)实验训练了他们的模型,光学字符识别实验是将打印的或手写的文本图像从数字物理文档内部转换成机器编码的文本,就像扫描仪生成的文本一样。一旦使用所提出的方法对其进行 OCR 训练,该模型就可以分辨出哪些特征是最重要的。
目前,该算法只能应用于一维数据样本,但该团队感兴趣的是扩展其算法的能力,以处理更复杂的结构化数据。
Oftadeh 说: “直接分解多维数据是一个非常活跃、富有挑战性的数学研究领域,它本身也有许多挑战,我们有兴趣进一步探索它。”
他们下一步的工作是推广他们的方法,提供一个统一的框架来生成其他机器学习方法,这些方法可以找到数据集的底层结构和/或通过设置少量的规范来提取其特征。