电子表格限制数据分析的四种方式

数据清理、可视化、上下文化和建模所需的工具。

通过Michael Risse, Seeq公司 4月30日

过程工业公司已经收集了几十年的制造业数据。随着硬件和软件的每一次改进,组织生成和收集更多的数据,描述过程条件、供应链度量和其他生产方面。

然而,企业很难将收集到的大量数据转化为有用的信息和见解。他们这样做是为了提高工艺单元、工厂和企业的可靠性、安全性和盈利能力。但随着数据量的增长,挑战也在加剧。

由工业物联网(IIoT)驱动的工业革命正在以先进的计算机化、传感器的普及和无线技术为基础展开,极大地扩展了存储和分析的数据类型和数量,并需要更好的分析方法。

历史上,流程制造商使用电子表格来组织以表格形式收集的数据。电子表格原本是为会计和金融服务的,但它从来都不适合处理大量的时间序列数据。不过,它们确实允许用软件构建公式,以及跨多个表进行计算。

因此,工程师在数据分析项目中采用了电子表格,这导致了劳动和时间密集型的过程。此外,使用电子表格、结果共享和与他人协作也很困难。随着公司积累了越来越多的数据,他们努力寻找有效的方法来在组织内共享数据驱动的见解。

先进的分析软件是克服这些挑战和障碍的手段。为了更好地理解这些进步,让我们看看电子表格的四个限制,以及分析解决方案如何解决每个限制。

数据量

工艺制造和监控系统产生大量数据,这些数据共同表征了工艺条件、操作/产品流和设备状况。与控制系统有关的数据以不同的形式产生。一般的方法是将所有与调查相关的数据汇总到一个电子表格中,然后进行分析。从多个来源收集的大量数据迅速侵蚀了进行有效分析的能力。

在进行分析之前,必须对数据进行排序和清理,并减少电子表格中的数据点数量。检测信号被重新格式化,以适应电子表格列/行范例,如图1所示。微软Excel电子表格的规定限制是大约100万行。一个常见的过程系统传感器采样频率是每分钟一次,这相当于Excel中每年50万行。如果采样频率是每30秒一次,或者如果用户想查看两年的数据,那么就不可能以适当的分辨率查看所有数据。

此外,超出电子表格容量限制的文件将遇到性能问题。分层放置多组数据和计算,同时打开大量大文件,以及链接到其他应用程序和宏,这些都阻碍了电子表格的可用性。工程师或科学家的处理数据工作流通常需要所有这些功能。使用电子表格,用户必须在数据段的类型和采样上做出让步。

数据隔离

虽然与容量限制有关,但数据隔离是一个单独的问题。例如,每当团队成员访问流程数据时,他们首先将其下载到一个单独的重复文件中。这是一次性的快照提取。如果数据更改或更新,则必须重新执行查询。这可能会对后续的计算、清理和洞察产生影响。大型文件很难在整个组织中共享和保持同步,特别是当多个用户正在查看相同的数据集和源时。

考虑到工业物联网和云,创建更多更大的数据库是一个持续的趋势。此外,并非所有数据、数据库和用户都位于一个位置。远程数据库和用户进一步复杂化了向用户获取适当数据的任务。

一旦相关数据被组装到电子表格中,用户如何找到数据驱动的见解?工程师最感兴趣的是数据随时间的变化以及与其他系统元素的关系。例如,温度、压力、原料质量和转化率都贯穿时间并具有加工关系。

在任何分析中,用户必须首先确定最感兴趣的过程点,例如最佳稳态条件、关键设备振动趋势、停机、排放事件和其他参数。时间是其中一个因素。工程师分析跨班次、周、月或年收集的数据,以确定趋势和根本原因。

为了在电子表格中做到这一点,用户对列和行进行排序,以确定要考虑的数据点。这种排序/清理是通过电子表格功能系统地完成的,但微软列出的Excel最常用的10个功能中有70%是用于数据整理的,而不是数据分析,而数据分析才是传递价值的地方。

数据操作占开发电子表格应用程序所需时间的50%到90%,如图2所示。电子表格算法可以对数据进行排序和切片,但数据操作/计算方法不透明,并且很难记住和与同事共享。

例如,在月度单位报告或季度排放评估中,必须重新查询数据,并且必须使用宏再现或自动化任何手动元素。如果分析不经常进行,或者由不同的人进行,那么学习或重新学习电子表格数据操作可能需要大量时间。一些团队有单独的文档来描述工作流,但是在开发宏时缺乏透明度阻碍了任何分析的复制。

有限的合作,报告

一旦对大型数据集进行了排序和筛选,如何共享和分发数据驱动的见解?从电子表格分析中提取信息并共享信息的能力有限,但计算不透明使得协作和结果再现变得困难。此外,出于大小和简单性的原因,通常共享的是分析的图片,而不是电子表格本身。

此外,由于数据隔离和密集的操作限制,使用电子表格完成的工作必须集中访问并严格维护。一旦结果转换成另一种形式进行分发,这就变得困难了。报告和共享通常包括复制和粘贴工作,或者插入/链接/查询/重新查询(文件崩溃)工作流。

高级分析软件解决了这四个电子表格限制,以及其他限制,以提供更快的洞察,如下面的示例所示。

谷物加工能源

谷物制造工厂的能源管理团队的任务是寻找节能驱动因素。谷物加工过程中的批量烹饪步骤消耗了大量的超热热水。它被确定为需要改进的主要领域。

该项目需要流程操作工程师Matt和能源管理项目负责人Lauren之间的合作。工艺操作和能源管理团队面临寻找节能措施的挑战。

批量烹饪水壶需要消耗大量的热水来维持适当的温度。为了优化能耗,提出了一种新的热水加水量控制系统。使用更严格的温度控制策略,水壶可以减少从前一批中排出的液体,最大限度地减少热水的添加,同时保持所需的烹饪温度。这个过程可以通过减少新加入的过热水的体积来节约能源。

为了开发针对上述问题的数据驱动解决方案,Matt将批处理数据从流程历史记录和执行系统导出到单个电子表格中。由于安装了新的控制系统,马特放弃了旧系统的数据,重新开始分析。数据量限制了输出能力,需要将分析范围从一年缩小到最近一个季度。此外,来自历史记录和执行系统的时间序列数据不匹配也是一个问题。由于这些差异,需要在两个系统之间手动进行数据时间同步。通过蛮力的努力,Matt从几批数据中创建了一个浓缩的、低分辨率的数据视图,并推断了一年的结果。

尽管马特努力挖掘可用的批量烹饪数据,但结果喜忧参半。新的电子表格仍然太大,不容易与能源管理团队共享。由于规模和复杂性,电子表格在包含计算和图表后会定期崩溃。Matt和Lauren花了大量时间对数据操作进行筛选和排序,以找到实际的结果,如图3所示。

快速回顾一下,Matt将大部分时间用于清理、排序、筛选、复制和将感兴趣的数据粘贴到电子表格中。他几乎没有花时间实际分析拟议的业务变化,尽管这项任务仍然相当繁重。在项目期间,Matt被提升到一个新的职位,一个新的工程师接管了这项任务。两位工艺工程师数据准备方法的差异导致了结果差异。

案例历史说明了使用电子表格分析过程数据时所面临的挑战。尽管他们做了很多努力,但流程操作组和能源管理团队仍在不断重复相同的步骤来处理数据。问题不在于缺乏数据,而且通常在任何工业设施中都不存在这种问题。更确切地说,它是没有时间同步的数据,数据的位置和格式各不相同。使用电子表格与不同的小组共享数据也被证明是困难的,有效的可视化和报告工作几乎是不可能的。

应用高级分析

高级分析软件消除了与大型数据集交互时发现的障碍。在案例历史示例中,研究小组只对在较长时间内批量水壶的过热水填充数据感兴趣。感兴趣的数据在不同的位置和不同的格式。必须从数据集中删除异常数据,例如在清理和维护停机期间收集的异常数据。

电子表格需要使用蛮力来删除或排除不必要的信息。为了继续计算和可视化,将数据复制和粘贴到其他电子表格上花费了太多时间。

另一方面,高级数据分析软件可以访问数据所在的位置。不需要复制和粘贴,因为该软件结合了来自多个来源的高分辨率数据(图4)。简单的查询命令有助于数据定位,并支持精简的排序、清理和仅从历史记录和其他来源收集所需数据的组装。

Seeq的高级分析软件还支持基本的微积分和其他数学功能,工程师可以使用这些功能将数据转换为趋势和其他相关数据分类的可视化总和。感兴趣的数据可以很容易地组装起来,并用于将来的建模。新用户所需的培训很少。

任务和结果的文档包含在工作产品中,提供了清晰度。同样重要的是,可以对数据和结果进行监控和发布,而不会出现可重复性问题。数据可视化可以通过在Excel或PowerPoint中导出和发布结果来实现。

最后的话

高级分析软件工具加速了数据清理、可视化、搜索、情境化和建模的过程。使用这些工具,工程师可以专注于获取知识、协作和解决问题——而不是繁琐的数据处理工作。

正确的软件工具使用户能够专注于信息和知识,从而做出更有洞察力的决策。这些工具与来自多个供应商的数据库和历史记录具有广泛的兼容性。先进的分析软件克服障碍,支持流程工厂数据的可访问性,以推动更好的决策。

迈克尔Risse副总裁兼首席营销官在Seeq集团。该公司为工程师和分析师开发高级分析应用程序,以加速从过程制造数据中获得见解。他曾是大数据应用和平台的顾问,在此之前在微软公司工作了20年。Risse毕业于威斯康星大学麦迪逊分校,现居住在华盛顿州西雅图。

本文发表于工程师的工业物联网补充的控制工程而且设备工程

参见下面补充的其他文章。