使用机器学习进行拖放数据分析

麻省理工学院的研究人员开发了一个系统,可以让非专业人士使用机器学习(ML)模型对医学研究、销售等进行预测。

通过罗伯·马西森 2019年6月28日

钢铁侠电影中,托尼·斯塔克使用全息计算机将3d数据投射到稀薄的空气中,用手操纵它们,并找到解决超级英雄问题的方法。同样,麻省理工学院(MIT)和布朗大学(Brown University)的研究人员现在开发了一种在触摸屏上运行的交互式数据分析系统,让每个人——而不仅仅是亿万富翁科技天才——都能解决现实世界的问题。

多年来,研究人员一直在开发一种名为“北极星”(Northstar)的交互式数据科学系统,该系统在云端运行,但其界面支持任何触屏设备,包括智能手机和大型交互式白板。用户输入系统数据集,使用手指或数字笔在用户友好的界面上操作、组合和提取特征,以揭示趋势和模式。

研究人员详细介绍了Northstar的一个新组件,称为VDS,意为“虚拟数据科学家”,可以立即生成机器学习模型,在数据集上运行预测任务。例如,医生可以使用该系统来帮助预测哪些病人更有可能患有某些疾病,而企业主可能想要预测销售额。如果使用交互式白板,每个人都可以实时协作。

其目标是通过简化复杂的分析,快速准确地实现数据科学的民主化。

北极星项目负责人蒂姆·克拉斯卡是麻省理工学院计算机科学与人工智能实验室(CSAIL)的电气工程和计算机科学副教授,也是新数据系统和人工智能实验室(DSAIL)的创始联合主任,他说:“即使是一个不懂数据科学的咖啡店老板,也应该能够预测未来几周的销售情况,从而确定要买多少咖啡。”“在有数据科学家的公司里,数据科学家和非专家之间有很多来回的交流,所以我们也可以把他们带到一个房间里一起做分析。”

VDS基于人工智能领域越来越流行的自动机器学习(AutoML)技术,该技术可以让数据科学知识有限的人训练人工智能模型,根据他们的数据集做出预测。

分析的“无界画布”

这项新工作建立在麻省理工学院和布朗大学研究人员在北极星上多年合作的基础上。四年来,研究人员发表了大量论文,详细介绍了北极星的组成部分,包括交互界面、多平台操作、加速结果以及对用户行为的研究。

北极星开始时是一个空白的白色界面。用户将数据集上传到系统中,这些数据集出现在左侧的“数据集”框中。任何数据标签将自动填充下面一个单独的“属性”框。还有一个包含各种算法的“操作符”框,以及新的AutoML工具。所有数据都存储在云中并进行分析。

研究人员喜欢在包含重症监护病房患者信息的公共数据集上演示该系统。医学研究人员想要检查某些疾病在特定年龄组的共同发生情况。他们将模式检查算法拖放到界面中间,该算法最初显示为一个空白框。作为输入,它们会进入标记为“血液”、“传染性”和“代谢”等疾病特征的方框。数据集中这些疾病的百分比显示在方框中。然后,他们将“年龄”功能拖到界面中,界面会显示患者年龄分布的条形图。在这两个盒子之间画一条线把它们连在一起。通过圈出年龄范围,算法立即计算出三种疾病在年龄范围内的共发情况。

“它就像一块巨大的、无界的画布,你可以在上面展示你想要的一切,”博士后伊曼纽尔·茨格拉根(Emanuel Zgraggen)说,他是北极星的主要贡献者,也是北极星交互界面的主要发明者。“然后,你可以把事情联系在一起,就你的数据提出更复杂的问题。”

近似AutoML

使用VDS,用户现在还可以通过定制适合其任务的模型来对数据运行预测分析,例如数据预测、图像分类或分析复杂的图形结构。

使用上面的例子,假设医学研究人员希望根据数据集中的所有特征预测哪些患者可能患有血液疾病。他们从算法列表中拖放“AutoML”。它首先会产生一个空白框,但带有一个“目标”标签,在这个标签下他们会删除“血液”功能。该系统将自动找到表现最佳的机器学习管道,以标签的形式呈现,并不断更新准确率百分比。用户可以在任何时候停止这个过程,改进搜索,并检查每个模型的错误率、结构、计算和其他事情。

根据研究人员的说法,VDS是迄今为止最快的交互式AutoML工具,这在一定程度上要归功于他们定制的“估计引擎”。引擎位于接口和云存储之间。引擎利用自动创建数据集的几个代表性样本,可以在几秒钟内逐步处理以产生高质量的结果。

研究生尚泽元(Zeyuan Shang,音译)说:“我花了两年时间设计VDS,模仿数据科学家的思维方式。”这意味着它会根据各种编码规则,立即识别在某些任务上应该或不应该运行哪些模型和预处理步骤。它首先从大量可能的机器学习管道列表中进行选择,并在样本集上运行模拟。在此过程中,它会记住结果并优化选择。在交付快速近似结果后,系统在后端对结果进行细化。但最终的数字通常非常接近第一个近似值。

“对于使用预测器,你不想等四个小时才能得到第一个结果。您希望已经看到发生了什么,如果检测到错误,您可以立即纠正它。这在任何其他系统中通常都是不可能的。”事实上,研究人员之前的用户研究“表明,一旦你推迟向用户提供结果,他们就会开始失去对系统的参与。”

研究人员在300个真实世界的数据集上评估了该工具。与其他最先进的AutoML系统相比,VDS的近似值同样准确,但在几秒钟内就生成了,这比其他工具快得多,其他工具需要几分钟到几小时才能运行。

接下来,研究人员希望添加一个功能,提醒用户潜在的数据偏差或错误。例如,为了保护患者隐私,有时研究人员会在医疗数据集中标记0岁(如果他们不知道年龄)和200岁(如果患者超过95岁)的患者。但新手可能无法识别这些错误,这可能会完全打乱他们的分析。

克拉斯卡说:“如果你是一个新用户,你可能会觉得搜索结果很棒。“但我们可以警告人们,事实上,数据集中可能存在一些异常值,可能表明存在问题。”

麻省理工学院

www.mit.edu

-由克里斯·瓦夫拉编辑,制作编辑,控制工程, CFE传媒,cvavra@cfemedia.com


作者简介:作者,麻省理工学院新闻办公室