高级分析使工程师和数据科学家能够协同工作

授权工程师直接与数据交互,通常使用数据科学家开发的算法,加快了洞察的时间。

通过克里斯塔Novstrup 2021年12月1日
礼貌:Seeq

人们获得洞察力的速度决定了竞争优势。最近,一名经理热情地回应了一系列工程师和主题专家(sme)的演讲,介绍了他们为提高产量、提高可靠性和监测排放所做的高级分析工作。

演示的共同主线是使用先进的分析应用程序,为公司的工程师和中小企业提供一种简化的方法来访问数据,执行分析和分享发现。通过将各自领域的现有知识注入到分析中,团队可以更快地获得洞察力。

回顾这个例子,成功的一个关键因素是将过程知识与高级分析和机器学习(ML)算法结合起来。在今天的组织中,这两块拼图通常是孤立的。工程师在生产设施的第一线,而数据科学家在一个独立的中央组织。但是,如果这种差距被消除了呢?

实际上,对所有工程师进行数据科学方面的再培训是不现实的,也不是所有工程师都有兴趣成为熟练的Python程序员。然而,这并不意味着这个想法毫无价值。有了正确的高级分析应用程序,工程师可以有效地与数据科学家合作,通过加快洞察时间为公司提供竞争优势。

数据访问和分析挑战

为了增强工程师和其他中小企业的能力,必须考虑访问数据、分析数据以及在正确的时间聘请正确的专业人员的挑战。首先,工程师和数据科学家需要访问数据。用于分析的相关数据来自多个本地流程历史记录和其他数据库。它可能包括用于实验室数据、维护跟踪、生产计划和生产会计的数据存储,以及直接传输到云的新领域传感器。

信息技术(IT)部门一直专注于整合这些数据,将其从内部部署转移到云端,并努力实现组织数据以方便发现的圣杯。虽然取得了进展,但这些项目需要几个月或几年的时间才能完成,而今天需要深入了解以改善运营。因此,工程师们发现,在分析开始之前,他们要把来自不同数据源的各种输出整理到电子表格中,这是一项繁重的任务。

随着数据最终到手,分析的复杂性将受到应用程序访问、高级分析和ML算法知识以及可用时间的限制。许多工程师已经熟练地操作电子表格来探索和分析数据,并且他们渴望扩展他们在这一领域的技能。然而,一线工程师的工作是许多相互竞争的优先级之一,通常留给开发复杂分析的时间最少,特别是在使用电子表格(一种不是为任务设计的工具)时(参见图1)。

图1:电子表格不是为分析过程数据而设计的,这导致了困难。

图1:电子表格不是为分析过程数据而设计的,这导致了困难。礼貌:Seeq

一种解药是雇佣数据科学家,创建集中的团队,偶尔在业务中嵌入数据科学家。这些数据科学家具有高级分析和ML算法的知识,并且他们已经接受过使用Python和各种其他软件平台来应用这些算法的培训。然而,数据科学家是孤立于工程师的,或者更具体地说,是孤立于工程师的流程知识和经验的。

因此,由于缺乏流程知识,仅由数据科学家完成的分析通常不是最佳的,这使得他们不太可能成功,也不太可能被工厂人员信任和采取行动。另外,数据分析需要数据科学家和工程师花费大量时间相互协作。无论哪种方式,公司都有机会实现更高的收益。

高级分析应用程序解决问题

正确的高级分析应用程序可以通过将工程师和中小企业直接连接到感兴趣的数据来解决这些问题和其他问题。这种类型的应用程序可以连接到数据所在的任何地方,允许工程师和其他人在他们的思路中调查和分析数据。它还使数据科学家能够开发和部署嵌入到这些应用程序中的算法,供一线工程师使用。

高级分析应用程序使用一套连接器连接到所有相关的数据源(例如,过程、实验室和维护)。这提供了从当前存储数据的位置访问数据,而不需要复制,然后将其存储在数据湖或应用程序中。此外,高级分析应用程序可以同时连接多个数据源。解决方案的实现并不依赖于IT部门完成他们的数据项目。相反,当这些新数据存储联机时,可以更新应用程序以使用它们(参见图2)。

图2:Seeq可用于自动访问来自各种数据源的数据。

图2:Seeq可用于自动访问来自各种数据源的数据。礼貌:Seeq

其次,高级分析应用程序为工程师提供了清理、情境化、调查、建模和监控的工具。针对时间序列数据的独特挑战,在电子表格或商业智能工具中繁琐的任务变得微不足道。此外,应用程序必须结合协作工具来记录分析步骤,并创建报告和仪表板,以便与同事、操作人员和管理人员共享见解。这可以确保结果被正确的受众看到。有了正确的高级分析应用程序,工程师不仅能够更高效地完成现有的任务,这使他们有更多的时间专注于其他活动,而且他们还可以调查和遵循他们本来不会追求的预感。

最后,可以整合机器学习算法的高级分析应用程序意味着工程师不需要学习如何使用新的软件工具来扩展他们的技能集。相反,他们可以访问先进的算法和机器学习模型,在相同的地方,他们已经趋势数据,监控操作和执行分析。这些算法的应用成为他们工作流程的自然延伸,而不是单独的努力。在这种环境中,工程师可以将他们的过程理解注入到ML模型的创建中,然后立即根据相关的过程数据和分析来审查结果。现在,数据科学家的工作不是为一种资产创建一个模型,数据科学家的工作可以扩展到允许许多一线工程师为各自的资产开发模型。

运行中的高级分析

价值链优化。在炼油厂,定期购买中间原料,以使反应器在上游装置不能生产足够的原料时以生产能力运行。购买的原料的成分和质量影响了可以暂时储存在现场然后加工的饲料的数量。劣质原料以折扣价出售,这意味着如果精炼厂可以购买并加工使用,就会有更大的利润空间。通常,购买这些原料的机会是有限的,因此工艺工程师必须迅速确认炼油厂将能够存储和处理这些原料。

一家油气公司的一位工艺工程师对现有模型提出了质疑,该模型表明,他们需要在夏季限制购买劣质原料。使用Seeq的高级分析应用程序,工程师可以在夏季和冬季找到相似和不同操作的时间段,然后能够清理数据,并根据实际工厂数据和季节性操作生成新模型(参见图3)。

图3:使用Seeq,工程师开发了一种相关算法,并将其作为附加工具部署,以识别对操作影响最大的输入信号。

图3:使用Seeq,工程师开发了一种相关算法,并将其作为附加工具部署,以识别对操作影响最大的输入信号。礼貌:Seeq

使用新模型,工程师确定该工厂可以处理两到三倍的劣质原料。然后,分析和结果总结在一份报告中,供管理层审查,他们决定购买额外的劣质原料,每年实现价值超过100万美元。

环境管理。对于任何垂直行业的制造设施,环境管理都是满足法规要求和改善环境、社会和治理(ESG)记分卡的优先事项。核算、报告和减少排放并不是一项微不足道的任务。单个制造工厂可能有许多污染源和更多的操作变量,这些变量会影响排放。

一家油气公司的数据科学家开发了一种神经网络算法,可以根据当前的操作条件估计氮氧化物排放量。机器学习算法通过Seeq内部的附加工具部署,然后由该公司全球的工程师使用,然后将该算法应用于他们的特定设施。此外,工程师们还使用机器学习算法来执行假设场景,使他们能够就减少排放的操作变化做出明智的决策。

其结果是一个被广泛采用的工具,成为监测和减少排放的最佳实践。而不是数据科学团队试图将他们的算法应用到每个设施并报告模型结果,公司通过跨站点部署算法来扩展他们的工作。反过来,一线工程师可以从Seeq高级分析应用程序中无缝访问和应用算法,他们已经在使用Seeq高级分析应用程序进行日常监控和故障排除。

数据科学家利用工程师的能力来访问、清理和处理数据,并使用在单个应用程序中部署的新算法。通过应用数据科学家开发的算法,工程师成为数据科学团队的延伸。

最终的想法

工程师和中小企业拥有丰富的领域知识和对其特定流程的理解。以一种使工程师能够轻松访问和应用这些算法的方式部署ML算法,确保他们的过程知识被纳入模型创建中,用于审查结果并产生快速见解。

因此,当数据科学团队不专注于将他们的算法应用于每个资产时,他们能够专注于开发下一个算法,以提高可持续性,减少停机时间或提高产量。

那么,想象每个工程师都是数据科学家现实吗?从最严格的正规教育意义上讲,可能不是,但随着公司采用包含ML算法的高级分析应用程序,界限正变得越来越模糊。

原创内容可在设备工程


作者简介:Krista Novstrup是Seeq公司的首席分析工程师,在过去的三年里,她一直在帮助客户从过程数据中获得洞察力和价值。除了面对客户的角色,她还是EMEA和Partners的分析工程组经理。在加入Seeq之前,她在埃克森美孚研究与工程公司工作了8年。她最近在埃克森美孚担任全球技术主管,支持规划优化。Novstrup博士拥有华盛顿大学化学工程学士学位和普渡大学化学工程博士学位。