分析

RAW数据如何准备应用分析

主题专家最能够明智地变换过程数据进行分析

由Michael Risse 2020年10月29日

图礼貌:Seeq

从数据中获取见解的障碍是什么?

直到数据由主题专家（SMEs）的清洗工艺厂的时间序列数据分析，不能有效地进行。简单地说，原始数据还没有准备好进行分析和利益的实现。一些组织报告的专用于分析的时间超过70％，只是数据清洗取数据从原料到准备的。

这些数据通常存储在云中的数据湖中，或者存储在流程历史记录中。顺便说一句，这两种选择的成本都在迅速下降。与此同时，由于传感器价格的下降，产生了比以往更多的数据，有线或无线通信产品广泛可用，将数据从传感器转移到存储设备。

这为工厂人员通过他们的流程和资产所创造利用数据，一个巨大的机会，但也留下一个缺口，通常被称为是数据丰富，信息不畅。

与第一原则的知识，中小企需要清洗，模型，在此之前的业务分析，数据科学和工艺相关的分析作出努力情境数据。此外，直到数据是科学家不能运行他们的算法“准备好了。”对于所有的算法中的专业知识，数据科学家没有工厂，资产或流程专业知识，知道他们正在寻找的数据。

但是中小型企业并不是数据看门人，因此必须解决访问、清理和上下文化数据的单调和耗时的任务，从而推动寻找更好的解决方案。

图1：过程和其它制造商产生的数据的量巨大，提供见解和运营改进的机会。图礼貌:Seeq

高级应用程序要求

虽然分析的目标是获得洞察力，这必须在该组织的数据安全要求的条件下进行。出于这个原因，也有企业数据治理协议，表示只允许经过授权的员工数据访问规则和流程。因此，任何先进的分析应用程序用于数据处理必须遵守这些规则和流程。

此外，在从制造操作收集数据时，流程数据必须保持其原始形式，而不进行任何清理或汇总。这是因为在执行分析之前，对于如何更改数据的最轻微的错误假设可能会对未来的洞察产生负面影响或降低机会。因此，将数据从原始数据转换为就绪数据不应该在数据存储之前发生，这是一个最好留给中小型企业的任务。这些专家在整整一代人的时间里一直在使用电子表格来清理数据，但这个通用工具并不适合这项任务。

此外，传统的商业智能应用程序非常适合关系数据集，但它们不能适应时间序列数据的动态特性。这意味着许多人尝试使用电子表格进行数据清理和上下文化，这是一个缓慢且手动的过程。

例如，时间序列数据的基本问题，如时区、夏令时、插值类型和逻辑，必须由用户在电子表格公式中解决。一个人在桌面上做的事情可能不会被同事发现，所以工作必须反复进行。对中小型企业来说，结果不是数小时的电子表格地狱，而是数周或数月。这些类型的问题促使公司以高级分析应用程序的形式寻找更好的解决方案。

图2：以基于任何类型的标准的信号内定义感兴趣的时间段的能力，对于与时间序列数据的工作的一个关键因素。图礼貌:Seeq

人们异常进行分析

当中小型企业通过集成和比对来自多个来源的数据来准备数据进行分析时，上下文化就发挥了作用。这有时也被称为数据协调、数据混合、数据融合或数据增强。从本质上讲，sme匹配不同于数据类型的数据，通过组合传感器数据、资产或流程当时正在做什么，以及哪些数据部分对操作来说是重要的，来通知资产或流程的全貌模型。

这是一个越来越大的挑战，因为工艺制造公司产生越来越多的数据——平均工厂为1TB/天(每天tb)，而拥有多个工厂的公司可能为40TB/天(见图1)——来记录流量、温度、压力、水平和其他感兴趣的参数。

让我们来看看在以时间系列数据时所产生的问题的具体例子。值：从传感器报告了一年的数据结果在时间戳的形式总计为每年3.1万个数据点，每个每一秒的数据集。

在大多数情况下，检查所有这些数据是不可行的，也没有必要。相反，中小企业通常只希望在今年的信号中关注特定的兴趣期。以下是一些他们可能感兴趣的例子，只有在以下条件为真时才检查数据点进行分析，否则忽略(参见图2):

时间段:白天，轮班，周三，工作日和周末，或更多
资产状态:开启，关闭，预热，关闭，或更多
一种计算方法:移动平均线二阶导数为负的时间段
由于丢失信号、传单、退出或其他问题导致的错误数据样本——每一个都需要清理，以提高分析的准确性。

从这个例子中可以明显看出，即使只有一个信号记录了一年的数据，也有几乎无限的方法来解析数据进行分析。同样明显的是，在将数据转换为可进行分析的状态时，sme需要明智地选择这些感兴趣的时间段。

一些化学生产环境可以有20,000至70,000信号（或传感器），炼油厂可以有10万加和企业感应器数据信号可以达到走入千家万户。的数据量可以是压倒性的，但精炼和还原它可以导致加速的见解（参见图3）。

图3:在Seeq中，感兴趣的时间段被称为“胶囊”，并由趋势面板顶部的彩色条标记。在本例中，它们表示需要在数据清理工作中处理的区域。图礼貌:Seeq

在让时间序列数据准备好进行分析时，另一个需要考虑的障碍是数据分析通常需要的插值和微积分，而IT数据合并和聚合方法可能会忽略这一点。需要特定于制造的解决方案，因为它们提供了在不同时区、不同数据源的不同采样率校准信号的能力。在定义感兴趣的相关时间段之前，这些和其他数据清理任务无疑是必要的。

该情境步

就从关注特定时间段收集运行数据扩展的方法是与其他来源的数据的背景情况是，以改善整体经营成果的影响。当组合各种不同的数据源，常见的问题可以包括：

什么是能源消耗使得产品类别1与产品类型2时？
温度对产品质量有什么影响?
电力消耗是否随着批次完成时间的变化而变化?

常见的数据源的一些例子包括实验室信息系统，制造执行系统，企业资源计划系统，外部原材料的定价系统，公用定价等。

下面是一个数据上下文化的示例，用于组合和处理来自多个数据源的数据。结果是一个易于理解和操作的表(图4)。中小型企业也可以使用它，使用Microsoft Power BI、Tableau或Spotfire等商业智能应用程序的分析师也可以使用它。

图4:这个表是用一个高级分析应用程序创建的，sme和分析师很容易访问。图礼貌:Seeq

时间序列数据的深刻未来

高级分析应用程序很容易使用与时间序列数据，赋予中小企业快速清洗和情境数据，形成鲜明对比的基于电子表格的劳动密集型的分析工作。这些类型的应用程序，数据从筒仓访问的需要，并且永远不会复制或复制。然后将其用于诊断，预测和描述分析。

高级分析应用程序应该能够与发表的报告和仪表板用于整个组织的见解同事之间的协作，而无需通过几十万行的电子表格中需要步枪。凭借先进的分析应用程序，它可以快速得到组织需要实现的时间序列数据的全部价值的见解，使这个数据为便于分析，因为它是收集和存储。

有大量的焦点在数字转型，使其进入雷达的工业组织。与集成信息技术和运营技术资产以开发跨业务和数据集的整体视图的压力相结合，这种关注使得流程制造商比以往任何时候都更需要理解适当的数据清理和时间序列数据上下文化的重要性。这将引导他们获得与原始数据集一样庞大的见解，缩小存在了太久的差距。

迈克尔Risse

作者简介:Michael Risse是Seeq Corporation的首席营销官和副总裁，该公司为工程师和分析师构建先进的分析应用程序，加速对工业过程数据的洞察。他曾是大数据平台和应用公司的顾问，此前在微软工作了20年。迈克尔毕业于威斯康星大学麦迪逊分校，现居西雅图。

搜索你所在行业的产品并发现新的创新