传感器,执行器

方法在收集的测量中找到隐藏的警告信号

已经开发了一种深度学习算法,可以在系统 - 从卫星到数据中心时提供高级通知 - 正在脱离WHACK。

由Daniel Ackerman. 2020年12月21日
麻省理工学院研究人员已经开发了一种基于深度学习的算法来检测时间序列数据中的异常。礼貌:麻省理工学院新闻

当您对每小时数千英里的空间达到空间的千里多美元的卫星卫星时,您希望确保它顺利运行。时间序列可以提供帮助。

时间序列只是随着时间的推移重复采取的测量记录。它可以跟踪系统的长期趋势和短期削波。实例包括自1958年以来的新日病例的臭名昭着的Covid-19曲线和已经跟踪大气二氧化碳浓度的龙骨曲线。在大数据时代,“时间序列收集到卫星到涡轮机中的卫星,”Kalyan Veeramachani。“所有机械都有传感器,收集这些时间序列关于它们的运作方式。”

分析那些时间序列,并在其中标记异常数据点,可能很棘手。数据可能是嘈杂的。如果卫星操作员看到一系列高温读数,他们如何知道它是无害的波动还是卫星即将过热的迹象?

这是Veeramachaneni的问题,他在麻省理工学院的实验室中领导了Data-to-AI集团,以获得信息和决策系统,希望解决。该集团开发了一种新的深度学习的基于深入的基于时间序列数据的异常的方法。它们的方法称为Tadgan,表现优于竞争方法,可以帮助操作员检测并响应一系列高价值系统的主要变化,从卫星飞过空间到地下室的计算机服务器农场嗡嗡声。

高赌注

对于作为卫星复杂的系统,必须自动化时间序列分析。卫星公司SES与Veeramachaneni合作,从其通信卫星接收了大量时间序列 - 每种航天器约30,000个独特的参数。SES控制室的人类运营商只能跟踪那些时间序列的一小部分,因为它们闪烁在屏幕上的闪烁。对于其余的,他们依靠警报系统来标记超出范围的值。“所以他们对我们说,'你能做得更好吗?”Veeramachaneni说。该公司希望他的团队使用深度学习来分析所有这些时间序列并标记任何异常行为。

这个请求的股份很高:如果深度学习算法未能检测到异常,则该团队可能会错过修复事物的机会。但是,如果每次有一个嘈杂的数据点,它会响起警报,人类评论者将浪费他们的时间不断检查狼狼的算法。“所以我们有这两个挑战,”刘说。“我们需要平衡它们。”

该团队致力于为异常检测创造更普遍的框架,而不是仅针对卫星系统来击打平衡,而不是罢工。他们转向被称为生成的对冲网络(GANS)的深度学习系统,通常用于图像分析。

甘包括一对神经网络。一个网络,“发电机”创建假图像,而第二网络,“鉴别器”,处理图像并尝试确定它们是否是由发电机产生的真实图像或假的。通过许多轮流的这个过程,发电机从鉴别者的反馈中学习,并在创造超现实假货方面变得擅长。该技术被视为“无人监督”的学习,因为它不需要预先标记的数据集,其中图像与其主题标记。(大型标签数据集可能很难通过。)

该团队适用于时间序列数据的GAN方法。“从这个培训策略来看,我们的模型可以告诉哪些数据点是正常的并且是异常的,”刘说。它通过检查差异 - 可能的异常 - 在实时序列和假GAN生成的时间序列之间进行差异。但是球队发现,单独的甘叶不能足以在时间序列中进行异常检测,因为它们可以在确定应该比较假的真实时间序列段来缩短。结果,“如果你单独使用Gan,你会产生很多误报,”Veeramachaneni说。

为了防止误报,该团队用一个称为AutoEncoder的算法补充了他们的甘甘 - 另一种无监督的深度学习技术。与GANS倾向于哭泣的狼,自动化者更容易错过真正的异常。这是因为AutoEncoders倾向于在时间序列中捕获太多模式,有时将实际的异常解释为无害的波动 - 一个称为“过度装备”的问题。通过将甘与AutoEncoder组合,研究人员制作了一种异常的检测系统,该系统袭击了完美的平衡:Tadgan是警惕的,但它不会引起太多错误警报。

站在时间序列的考验

加上,田队队击败了比赛。在20世纪70年代开发了传统的时间系列预测方法,称为Arima。“我们想看看我们来了多远,以及深度学习模式是否实际上可以改善这种古典方法,”Alnegheimish说。

该团队在11个数据集上运行异常检测测试,与Tadgan和七种其他方法进行点击Arima,包括由亚马逊和微软等公司开发的一些方法。Tadgan在异常检测中表现出Arima,对于11个数据集中的八个。由亚马逊开发的第二个最佳算法,只能击败Arima进行六个数据集。

Alnegheimish强调他们的目标不仅是开发顶级异常检测算法,还可以使其可广泛使用。“我们都知道AI遭受重复性问题,”她说。该团队已自由地提供Tadgan的代码,并发出定期更新。此外,他们开发了一种用于用户比较不同异常检测模型的性能的基准系统。

“这个基准是开源的,所以有人可以尝试一下。如果他们想要,他们可以添加自己的模型,“Alnegheimish说。“我们希望减轻AI不可重复的AI周围的耻辱。我们希望确保一切都很声。“

Veeramachaneni希望Tadgan将提供各种各样的行业,而不仅仅是卫星公司。例如,它可用于监测已成为现代经济核心的计算机应用的性能。“运行实验室,我有30个应用程序。缩放,松弛,github - 你说它,我有它,“他说。“而且我依靠他们无缝地工作。”全球数百万用户也是如此。

Tadgan可以帮助像缩放监控时间序列信号等数据中心的CPU使用或温度 - 以帮助防止服务休息,这可能威胁到公司的市场份额。在未来的工作中,团队计划在用户界面中打包Tadgan,帮助为需要它的任何人带来最先进的时间序列分析。

- 由Chris Vavra,Associate Editor编辑,控制工程,CFE媒体和技术,cvavra@cfemedia.com.


Daniel Ackerman.
作者生物:Daniel Ackerman,麻省理工学院新闻办公室