从大数据分析中剔除人的因素

麻省理工学院的研究人员正致力于利用数据科学机器(data Science Machine)将人为因素从大数据分析中剔除,该机器不仅用于搜索模式,还用于设计特征集。

通过Larry Hardesty,麻省理工学院新闻办公室 2015年11月19日

大数据分析包括搜索具有某种预测能力的隐藏模式。但是选择分析数据的哪些“特征”通常需要一些人类的直觉。例如,在包含各种促销活动的开始和结束日期以及每周利润的数据库中,关键的数据可能不是日期本身,而是它们之间的跨度,或者不是总利润,而是这些跨度的平均值。

麻省理工学院的研究人员旨在将人为因素从大数据分析中剔除,他们的系统不仅可以搜索模式,还可以设计特征集。为了测试他们系统的第一个原型,他们让它参加了三场数据科学比赛,在比赛中,它与人类团队竞争,在不熟悉的数据集中找到预测模式。在参加三项比赛的906支队伍中,研究人员的“数据科学机器”领先615支队伍。

在三场比赛中的两场比赛中,数据科学机器做出的预测准确率分别为获奖作品的94%和96%。在第三个国家,这一数字为87%。但是,人类团队通常要花几个月的时间来研究他们的预测算法,而数据科学机器只花了2到12个小时来生成每个条目。

“我们认为数据科学机器是人类智能的自然补充,”马克斯·坎特(Max Kanter)说,他在麻省理工学院的计算机科学硕士论文是数据科学机器的基础。“有太多的数据需要分析。现在它只是坐在那里什么都不做。所以也许我们可以想出一个解决方案,至少能让我们开始,至少让我们行动起来。”

字里行间

麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究科学家Kaylan Veeramachaneni说:“从我们为工业解决大量数据科学问题的经验中观察到,非常关键的步骤之一被称为特征工程。你要做的第一件事是确定要从数据库中提取或组合哪些变量,为此,你必须想出很多想法。”Veeramachaneni联合领导了CSAIL的Anyscale全民学习小组,该小组将机器学习技术应用于大数据分析中的实际问题,例如确定风电场站点的发电能力或预测哪些学生有退出在线课程的风险。

例如,在预测退学时,有两个关键指标被证明是:学生在截止日期前多久开始做习题集,以及相对于他或她的同学,该学生在课程网站上花了多少时间。麻省理工学院的在线学习平台MITx没有记录这些统计数据,但它确实收集了数据,从中可以推断出这些数据。

有特色的作文

Kanter和Veeramachaneni使用了一些技巧来制造用于数据分析的候选特征。一种是利用数据库设计中固有的结构关系。数据库通常将不同类型的数据存储在不同的表中,并使用数字标识符指示它们之间的相关性。数据科学机器跟踪这些相关性,将它们作为特征构建的线索。

例如,一个表可能列出零售商品及其成本;另一种可能列出个人客户购买的商品。数据科学机器首先将成本从第一个表导入到第二个表。然后,从第二个表中几个不同项目与相同购买数量的关联中得到提示,它将执行一组操作来生成候选特征:每单总成本、每单平均成本、每单最低成本,等等。随着数字标识符在表中激增,Data Science Machine将操作层层叠加,找到平均值的最小值、和的平均值,等等。

它还寻找所谓的分类数据,这些数据似乎被限制在一个有限的值范围内,比如星期几或品牌名称。然后,通过将现有的特征划分到类别中,生成更多的候选特征。

一旦它生成了一个候选数组,它就会通过识别那些值似乎是相关的来减少它们的数量。然后,它开始在样本数据上测试其减少的特征集,以不同的方式重新组合它们,以优化它们产生的预测的准确性。

麻省理工学院

www.mit.edu

-由克里斯·瓦夫拉编辑,制作编辑,控制工程, CFE传媒,cvavra@cfemedia.com.查看更多控制工程制造业IT故事