无监督机器学习对工业自动化有何好处

无监督机器学习的目的是使用算法来处理未标记的数据,这些算法擅长识别模式和精确定位数据中的异常,范围从状态监测和性能测试到网络安全和资产管理。

通过克里斯汀Lewotsky 2022年5月19日
图片由布雷特·塞尔斯提供

工业物联网(IIoT)工业4.0,网络物理系统。现代工业环境中充满了传感器和智能组件。所有这些设备一起产生了丰富的数据宝库。

这些数据,在今天的大多数工厂中尚未被开发,是广泛的新的和令人兴奋的应用的燃料。事实上,根据IBM的数据,一般工厂每天产生1 tb的生产数据。然而,只有大约1%的数据被转化为可操作的见解。1

A3白皮书题为“智能自动化:改变行业的6大人工智能应用,强调了迫切需要此类数据的六个应用类别。机器学习(ML)是一项基础技术,可以利用这些数据并释放出巨大的价值。使用训练数据,机器学习系统可以建立数学模型,教系统在没有明确指令的情况下执行特定任务。

机器学习使用基于数据的算法在没有人为干预的情况下做出决策。在工业自动化领域中使用的最常见的机器学习形式是监督式机器学习,它使用人类标记的大量历史数据集来训练模型(即人类监督算法的训练)。

这对于众所周知的问题非常有用,比如轴承缺陷,润滑故障,或者产品缺陷。监督式机器学习的不足之处在于,当没有足够的历史数据时,当标记太耗时或昂贵时,或者当用户不确定他们在数据中寻找什么的时候。这就是无监督机器学习发挥作用的时候。

无监督机器学习旨在使用擅长识别模式和精确定位数据异常的算法对未标记数据进行操作。如果应用得当,无监督机器学习可以服务于各种工业自动化用例,从状态监测和性能测试到网络安全和资产管理。

设置上下文

有监督的机器学习比无监督的机器学习更容易执行。通过适当训练的模型,它可以提供非常一致,可靠的结果。监督式机器学习可能需要大量的历史数据——尽可能多地包含所有相关案例,即,为了检测产品缺陷,数据需要包含足够数量的有缺陷产品案例。给这些庞大的数据集贴上标签既耗时又昂贵。此外,训练模型是一门艺术。它需要大量的数据,适当的管理,以提供良好的结果。

如今,使用AutoML等工具大大简化了这个过程,这些工具可以对不同的ML算法进行基准测试。与此同时,过度约束训练过程可能会导致模型在训练集上工作得很好,但在实际数据上却很差。另一个关键的缺点是,监督式机器学习在识别数据中的意外趋势或发现新现象方面不是很有效。对于这些类型的应用程序,无监督的机器学习可以提供更好的结果。

无监督毫升

与有监督的机器学习相比,无监督的机器学习只对未标记的输入进行操作。它为数据探索提供了强大的工具,可以在没有人工帮助的情况下发现未知的模式和关联。对未标记数据进行操作的能力节省了时间和金钱,并使无监督机器学习能够在输入生成时尽快对数据进行操作。

缺点是,无监督的机器学习比有监督的机器学习更复杂。它更昂贵,需要更高水平的专业知识,而且通常需要更多的数据。它的输出往往不如有监督的机器学习可靠,最终需要人为监督才能获得最佳结果。

常见的无监督ML技术

无监督机器学习的三个重要任务是聚类、异常检测和数据降维。让我们仔细看看每一个。

聚类

顾名思义,聚类涉及分析数据集,以识别数据之间的共享特征,并将类似的实例分组在一起。因为聚类是一种无监督的机器学习技术,所以决定排序标准的是算法,而不是人。因此,聚类可以带来令人惊讶的发现,是一种很棒的数据探索工具。

想象一下它是如何工作的:想象三个人被要求在农产品部门分类水果。人们可以按水果的种类分类——柑橘类、核果、热带水果等。另一个可能按颜色分类,而第三个可能按形状分类。每种方法都强调一组不同的特征。

聚类可以分为多种类型。最常见的是:

  • 独家集群:一个数据实例只分配给一个集群
  • 模糊的或重叠的聚类:一个数据实例可以分配给多个集群。例如,橘子既是柑橘类水果又是热带水果。在操作未标记数据的无监督ML算法的情况下,可以分配数据块适当地属于A组与B组的概率。
  • 层次聚类:该技术涉及构建聚类数据的分层结构,而不是单个聚类集。橘子是柑橘类水果,但它们也包含在更大的球形水果集合中,可以进一步被所有水果集合吸收。

让我们来看看两个最流行的聚类算法:

  • k - means

K-means算法将数据分为K簇,其中值为K由用户预置。在过程开始时,算法随机分配K作为质心的数据点K集群。接下来,它计算每个数据点与其簇质心之间的均值。这将导致将数据诉诸于集群。此时,算法重新计算质心并重复均值计算。它重复重新计算质心和重新排序集群的过程,直到得到一个恒定的解决方案(参见图1)。

图1:K-means算法首先随机选择K个数据点作为质心,然后将剩余的实例随机分配到聚类中,将数据集划分为K个簇。在计算每个数据点的平均值后,分配质心和数据点,然后再次计算平均值。这个过程一直持续,直到它定义了K个具有质心的行为良好的簇。提供:GeeksforGeeks,协会推进自动化(A3)

图1:K-means算法首先随机选择K个数据点作为质心,然后将剩余的实例随机分配到聚类中,将数据集划分为K个簇。在计算每个数据点的平均值后,分配质心和数据点,然后再次计算平均值。这个过程一直持续,直到它定义了K个具有质心的行为良好的簇。提供:GeeksforGeeks,协会推进自动化(A3)

K-means算法简单有效。它对模式识别和数据挖掘非常有用。缺点是,它需要预先了解数据集才能优化设置。它还不成比例地受到异常值的影响。

  • K-median

k中值算法是k均值算法的近亲。它使用基本相同的过程,除了计算每个数据点的平均值,而是计算中位数。因此,该算法对异常值的敏感性较低。

以下是集群的一些常见用例:

  • 聚类对于分割这样的用例是有效的。这通常与客户分析有关。它还可以应用于资产类别,不仅可以分析产品质量和性能,还可以识别可能影响产品性能和生命周期的使用模式。这可以帮助oem管理资产“车队”,例如智能仓库中的自动移动机器人或用于检查和数据收集的无人机。
  • 它可以用于图像分割,作为图像处理操作的一部分。
  • 聚类作为预处理步骤也很有用,可以帮助为有监督的ML应用程序准备数据。

异常检测

异常检测对于从缺陷检测到状态监控到网络安全的各种用例都是至关重要的。这是无监督机器学习的关键任务。

幸运的是,在无监督机器学习中有各种各样的异常检测算法。让我们来看看最流行的两种。

  • 与世隔绝的森林

异常检测的标准方法是建立一组正常值,然后分析每一块数据,看看它是否偏离正常值,偏离多少。当处理机器学习中使用的大量数据集时,这是一个非常耗时的过程。隔离森林算法采用相反的方法。它将异常值定义为不常见且与数据集中的其他实例非常不同。因此,它们更容易与其他实例上的数据集的其余部分隔离开来。

隔离林算法具有最小的内存需求,所需的时间与数据集的大小成线性关系。它们可以处理高维数据,即使涉及到不相关的属性。

  • 局部异常因子(LOF)

仅通过与质心的距离来识别离群值的挑战之一是,距离小集群很近的数据点可能是离群值,而距离大集群很远的数据点可能不是离群值。LOF算法就是为了做到这一点而设计的。

LOF将离群点定义为其局部密度偏差远远大于其邻近数据点的数据点(见图2)。尽管与K-means一样,它确实需要用户提前进行一些设置,但它可能非常有效。当它作为一种半监督算法并且仅在正常数据上进行训练时,也可以应用于新颖性检测。

图2:局部离群因子(LOF)使用每个数据点的局部密度偏差来计算异常分数,从而区分正常数据点(低局部密度偏差)和离群值(高局部密度偏差)。提供:GeeksforGeeks,协会推进自动化(A3)

图2:局部离群因子(LOF)使用每个数据点的局部密度偏差来计算异常分数,从而区分正常数据点(低局部密度偏差)和离群值(高局部密度偏差)。提供:GeeksforGeeks,协会推进自动化(A3)

下面是异常检测的几个用例:

  • 预见性维护:大多数工业设备都是耐用的,停机时间最短。因此,可供使用的历史数据往往有限。因为无监督的机器学习即使在有限的数据集中也可以检测到异常行为,所以它可以在这些情况下潜在地识别开发缺陷。在这里,它也可以用于车队管理,提供缺陷的早期警告,同时最小化需要审查的数据量。
  • 质量保证/检验:机器操作不当会生产出不合格的产品。无监督ML可用于监视功能和进程,以标记任何异常情况。与标准的QA过程不同,它可以在没有标签和培训的情况下完成。
  • 图像异常识别:这在识别危险病理的医学成像中特别有用。
  • 网络安全:网络安全最大的挑战之一是威胁是不断变化的。在这种情况下,通过无监督机器学习进行异常检测可能非常有效。安全的标准技术是监视数据流。如果通常向其他组件发送命令的PLC突然开始从非典型设备或IP地址接收稳定的命令流,这可能表明入侵。但是,如果恶意代码来自受信任的来源(或者恶意参与者欺骗受信任的来源)怎么办?无监督学习可以通过在接收命令的设备中寻找非典型行为来检测不良行为者。
  • 试验数据分析:测试在设计和生产中都起着至关重要的作用。其中两个最大的挑战是所涉及的数据量,以及在不引入固有偏见的情况下分析数据的能力。无监督机器学习可以解决这两个挑战。在开发过程或生产故障排除中,当测试团队甚至不确定他们在寻找什么时,这可能是一个特别的好处。

降维

机器学习是基于大量数据的。也就是说,数额很大,而且绝对很大。一个数据集可以被筛选到10个,甚至几十个特征是一回事。拥有数千个特征的数据集——它们绝对存在——可能会让人不知所措。因此,机器学习的第一步可以是降维,将数据降维到最有意义的特征。

用于降维、模式识别和数据探索的常用算法是主成分分析(PCA)。对该算法的详细讨论超出了本文的范围。只要说它可以帮助识别彼此正交的数据子集就足够了——也就是说,它们可以从数据集中删除而不影响主要分析。PCA有几个有趣的用例:

  • 数据预处理:说到机器学习,常说的哲学是越多越好。也就是说,有时候更多就是更多,特别是在无关/冗余数据的情况下。在这些情况下,无监督的机器学习可以用来去除不必要的特征(数据维度),加快处理时间并改善结果。在视觉系统中,无监督机器学习可以用于降噪。
  • 图像压缩:PCA非常擅长在保留有意义信息的同时降低数据集的维数。这使得该算法在图像压缩方面非常出色。
  • 模式识别:上面讨论的相同功能使PCA对于面部识别和其他复杂图像识别等任务非常有用。

开始

无监督的机器学习并不比有监督的机器学习更好或更差,只是不同而已。对于正确的项目,这是非常有效的。也就是说,最好的经验法则是保持简单,所以只有在有监督的机器学习无法解决的问题上才使用无监督的机器学习。

下面是几个问题,以确定哪种ML最适合你的项目:

  1. 有什么问题吗?
  2. 商业案例是什么?量化的目标是什么?项目多快能带来投资回报?这与监督学习或其他更传统的解决方案相比如何?
  3. 可用的输入数据类型是什么?你有多少钱?这和你想要回答的问题有关吗?是否有已经产生标签数据的过程,例如,是否有识别有缺陷产品的QA过程?是否有记录设备故障的维护数据库?
  4. 它适合无监督机器学习吗?

最后,这里有一些确保成功的建议:

  • 在项目开始前做好功课,制定好策略。
  • 寻找容易实现的目标——记住,确定一个关键的商业案例是至关重要的。
  • 从小事做起——在较小的范围内解决问题。
  • 但是,要确保解决方案是可伸缩的——你肯定不想在试验项目的炼狱中结束。
  • 考虑和伙伴一起工作。所有类型的机器学习都需要专业知识。寻找合适的工具和合作伙伴来实现自动化。不要重新发明轮子。你既可以花钱在公司内部培养必要的技能,也可以把你的资源投入到你最擅长的产品和服务上,而让合作伙伴和生态系统来处理繁重的工作。

在工业环境中收集的数据可能是一种有价值的资源,但只有在适当利用的情况下。无监督机器学习可以成为分析数据集以提取可操作见解的强大工具。采用这项技术可能具有挑战性,但它可以在充满挑战的世界中提供显著的竞争优势。

参考文献

利用云和人工智能创新制造流程

https://www.ibm.com/industries/industrial/resources/business-transformation-interactive/scenes/smart-factory/select/details/production-optimization


作者简介:克里斯汀·莱沃斯基,高级自动化协会特约编辑