利用算法自动化大数据分析

麻省理工学院的研究人员开发了大数据算法,旨在让数据科学家在几天内完成任务,而过去需要几个月的时间。

通过Larry Hardesty,麻省理工学院新闻办公室 2016年10月27日

麻省理工学院的研究人员提出了一个系统,可以自动完成关键的一步大数据分析:选择一个“特征集”,或对预测有用的数据方面。研究人员让该系统参加了几场数据科学比赛,在这些比赛中,它的表现超过了大多数人类竞争对手,而且只花了几个小时而不是几个月就完成了分析。该团队描述了一种自动化大数据分析其余大部分过程的方法——为分析准备数据,甚至是分析可能解决的问题的规范。

研究人员认为,他们的系统可以在几天内完成数据科学家过去需要几个月才能完成的任务。

“所有这一切的目标是向数据科学家展示有趣的东西,这样他们就可以更快地处理所有这些新数据集,”他说
Max Kanter孟' 15,他是去年论文和今年论文的第一作者。“(数据科学家想知道),‘你为什么不告诉我我能做得最好的前10件事,然后我再深入研究?’因此,(这些方法)缩短了从获取数据集到从中实际产生价值之间的时间。”

这两篇论文都关注时变数据,这些数据反映了随着时间的推移所做的观察,他们假设分析的目标是产生一个概率模型,该模型将在当前观察的基础上预测未来的事件。

现实问题

第一篇论文描述了分析时变数据的一般框架。它将分析过程分为三个阶段:标记数据,或对显著数据点进行分类,以便将它们输入到机器学习系统;分割数据,或确定哪些数据点的时间序列与哪些问题相关;以及“特征化”数据,这是研究人员去年提出的系统执行的步骤。

第二篇论文描述了一种用于描述数据分析问题的新语言,以及一组自动以不同方式重组数据的算法,以确定数据可能对解决哪些类型的预测问题有用。

Kalyan Veeramachaneni是麻省理工学院信息与决策系统实验室的首席研究科学家,也是这三篇论文的资深作者,据他说,这项工作源于他的团队对行业研究人员带来的真实数据分析问题的经验。

他说:“我们的经验是,当我们得到数据时,领域专家和数据科学家会围坐在一起讨论几个月,以确定一个预测问题。”“我认为人们这么做的原因是他们知道标签-细分-特征的过程需要6到8个月。所以我们最好定义一个好的预测问题,甚至开始这个过程。”

2015年,在完成硕士学位后,坎特以研究员的身份加入了维拉玛查内尼的团队。然后,在2015年秋天,坎特和维拉玛查内尼成立了一家名为Feature Labs的公司,将他们的数据分析技术商业化。坎特现在是该公司的首席执行官,在2016年获得硕士学位后,维拉玛查内尼团队的另一名硕士学生本杰明·施莱克(Benjamin Schreck)加入了该公司,担任首席数据科学家。

数据准备

由Schreck和Veeramachaneni开发的新语言,被称为Trane,应该可以将数据科学家定义良好预测问题所需的时间从几个月缩短到几天。Kanter、Veeramachaneni和Feature Labs的另一名员工Owen Gillespie也设计了一种方法,可以为标签-片段-特征(LSF)过程做同样的事情。

为了了解标记和分割需要什么,假设数据科学家看到了几个癫痫患者的脑电图(EEG)数据,并被要求识别数据中的模式,这些模式可能是癫痫发作的信号。

第一步是识别表明癫痫发作的脑电图峰值。下一步是提取每次癫痫发作前的一段脑电图信号。为了进行比较,信号的“正常”片段——长度相似但远离癫痫发作的片段——也应该被提取出来。然后,这些片段被标记为癫痫发作前或未发作前,机器学习算法可以使用这些信息来识别表明癫痫发作的模式。

在他们的LSF论文中,Kanter, Veeramachaneni和Gillespie定义了一个描述这种标记和分割问题的通用数学框架。例如,这些数据可能不是脑电图(EEG)读数,而是特定公司客户的购买记录,问题可能是根据客户的购买历史确定他或她是否有可能购买新产品。

出于预测目的,相关数据可能不是客户在一段时间内的行为,而是关于他或她最近三次购买的信息,无论何时发生。该框架足够灵活,可以容纳这些不同的规格。但一旦制定了这些规格,研究人员的算法就会自动执行相应的分割和标记。

发现问题

使用Trane,时间序列数据以表的形式表示,其中的列包含测量值和进行测量的时间。Schreck和Veeramachaneni定义了一组可以对列或行执行的操作。行运算类似于确定一行中的测量值是否大于某个阈值数,或者将其提高到特定幂。列操作类似于计算一列中连续测量值之间的差值,或将所有测量值相加,或只计算第一个或最后一个测量值。

在一张数据表中,Trane通过这些操作的组合进行详尽的迭代,列举出大量可以对数据提出的潜在问题——例如,连续行的测量值之间的差异是否超过了一个特定的值,或者是否有任何行的数据的平方确实等于一个特定的数字。

为了测试特灵的实用性,研究人员考虑了数据科学家提出的一系列问题,这些问题涉及大约60个真实数据集。他们将特灵可以对数据执行的连续操作的数量限制在5个,而这些操作是从一个只有6个行操作和11个列操作的集合中抽取出来的。值得注意的是,这个相对有限的问题集足以重现研究人员实际上提出的每一个问题,此外还有数百个他们没有提出的问题。

麻省理工学院

www.mit.edu

-由克里斯·瓦夫拉编辑,制作编辑,控制工程, CFE传媒,cvavra@cfemedia.com.查看更多控制工程大数据和资产管理故事