化工企业驯服报警管理

即使在进行了输入/输出(I/O)迁移,并安装了新的分布式控制系统(DCS)和安全仪表系统(SIS)之后,美国南部的一家化学制造商仍然遇到了更多的警报。本文将解释该公司如何在专注于目标并与行业标准保持一致的同时解决警报管理问题。

通过爱默生 2017年2月1日

随着时间的推移,由于流程、设备和人员的变化,告警管理可能会变得混乱。在美国南部的一家制造工厂,自动化系统由分布式控制系统(DCS)和用于复合单元的可编程逻辑控制器(plc)混合控制。随着时间的推移,工厂的警报管理失去了效率,变得难以管理。工厂领导知道他们必须改变现状,因为警报正在拖累生产率和效率。

报警管理统计数据显示,操作人员35%的值班时间被警报淹没,25%的警报在喋喋不休,每个操作人员有超过80个常备警报。吱吱作响的警报对操作员来说是一种严重的干扰,因为它们没有明显的直接后果。运营商遭遇了洪水警报。然而,由于没有这些警报的背景,它们很难解决,并影响了作业人员高效作业的能力。

工厂团队决定将9000多个输入/输出(I/O)迁移到艾默生的DeltaV分布式控制系统(DCS)和DeltaV安全仪表系统(SIS)。但是当团队迁移到新系统时,会生成新的警报,并且警报计数增加。接下来发生的事情在之前的控制系统中是不可能发生的。设备团队决定同时驯服新旧警报,并创建了一个程序来更有效地管理整个警报系统。DCS中的新功能将使这一点更容易实现。

设定报警管理目标,组建报警管理团队

团队首先通过创建一个哲学文档来专注于目标,该文档为解决警报管理的所有方面建立了标准(参见图1)。它计划遵守ANSI/ISA-18.2-2016:过程工业报警系统管理并与行业标准保持一致,例如少于6个警报/操作员/小时,少于1%的洪水时间/操作员,少于9个常备警报/操作员。

为了捕获和报告警报指标,团队安装了包含主警报数据库的软件。自动报告被迅速建立起来,以确保资源在正确的时间被放在正确的地方。报告还强调了减少不良指标数字所需的工作。

管理:如果没有管理层的支持,改进后的报警系统项目不会走得太远。管理人员需要支持时间线、批准成本、承诺组(特别是维护)所需的时间,并支持熟悉警报系统和代码的过程站点所有者。

转变领导:轮班报警组长被指派来执行这个系统。他们检查了持续的警报,强制使用警报摘要屏幕,并在每班检查了被抑制和骚扰警报的硬拷贝。

警报管理主题专家(SME):警报管理SME以细节为导向,并且足够持久,能够在轮班时对被抑制/被绕过的警报进行每周审计,创建修复问题的计划,并快速删除被抑制的警报。SME还与现场工作人员进行了每月审查,以评估警报系统的健康状况,确定前10至20个不良行为者,并创建修复行动计划。

不同的团队:为了获得警报需求的广泛视角,警报团队包括来自许多学科的成员:了解现场警报管理的控制系统专家、生产专家、高级董事会操作员和过程工程师(他们定期更换,以涉及来自每个工厂区域的专家,并可以在后期帮助变更管理批准)。

告警文档化和合理化

有了管理层的支持,有了坚定的员工,还有预算,工作才真正开始了。团队开始正确地评估风险并对警报进行排序,因为它拥有广泛的背景,并且可以讨论与每个警报相关的所有场景。研究人员每周工作4天,每天工作8小时,持续了6个月,他们分别研究了每一个警报(超过18000个),并对不同的情况进行了风险/排名。如果该场景符合风险/等级矩阵中的警报,则该矩阵规定了警报优先级。

研究表明,大多数“警报”都不符合真正警报的标准。因此,团队决定留下大约5300个启用的警报。对于每个启用的警报,都记录了时间延迟,以及每个启用的警报的动态警报代码。

新设计的主数据库文档现在符合ISA 18.2标准,包括报警标签、报警类型、报警设定值、潜在原因、偏差后果、纠正措施和允许的响应时间。然而,该设施有其想要满足的具体要求。因此,主数据库还包括其他信息,例如报警开关延迟、启用条件和时间延迟、禁用条件和时间延迟以及变更管理(MOC)说明。

减少策略

纠正抖音警报是首要任务。在转换到新的DCS的过程中出现了抖振,因为没有任何警报ON或OFF延迟。在合理化工作中,大多数警报OFF延迟最终被设置为20秒,然后团队决定根据具体情况设置更长的延迟。大多数警报都以10秒的ON延迟进行了合理解释,但每种情况都单独进行了合理解释,以确定更长或更短的ON延迟是合适的。

ON和OFF延迟的实现导致了警报指标的显著改进。事实上,在第一阶段,抖音警报从占警报总数的25%减少到不到4%。随着项目的继续,抖音报警下降到每月报警计数的0.25%以下。

DCS码策略

下一阶段等待团队的是更大的问题,包括每小时平均值、持续警报和洪水。

警报/运营商/小时平均:当小组最初成立时,它拥有各单元启动时的原始数据。

持续报警平均:在DCS转换之后,小组意识到它在不知不觉中转换了外地不再存在的I/O点,从而造成了持续的警报。更多的警报表明仪器需要修理。常设报警号码对管理支持提出了考验。维修经理派了一名技术人员修理或移除有问题的仪器。

报警洪水平均百分比:对于操作人员来说,如果超过35%的值班时间存在洪水报警情况,则很难正确理解所有数据并做出反应。然而,在研究之后,该团队意识到警报号码被夸大了,因为正在处理的警报是喋喋不休的。尽管如此,洪水状况很容易掩盖重要的警报。

为了解决剩下的三个问题(每小时平均值、持续警报和警报泛滥),新的DCS中提供了混合或自定义模板和代码、开箱即用功能和帐户管理等工具。

该团队选择不使用DCS中可用的开箱即用的模拟输入(AI)、数字输入(DI)和比例、积分和导数(PID)块内部报警参数,因为该设施的报警策略有太多具有不同时延的互斥条件。相反,该团队针对这些情况创建了自定义代码:由于联锁条件导致的直流模块故障警报,由故障仪器引起的不良过程变量(PV)警报颤振,以及操作员启动的机组停机,然后启动警报洪水,持续20分钟。此外,艾默生的AMS资产管理软件还可以辅助设备问题的警报维护。

AI、DI、PID模块实现了开箱即用的条件报警参数,仅在告警中增加20秒的OFF延时,就大大提高了报警数量。

该团队创建了更高级别的用户帐户,允许主管和专家抑制和解除抑制警报。事实上,他们不仅可以抑制警报,还可以将警报设定值更改为更高或更低的值。通过允许主管和专家调整报警设定值,警报仍然将被启用,并在必要时发出警报。安全系统旁路表格和妨害警报表格的硬拷贝必须在每班审查。

即使在成功之后,工作仍在继续

工作得到了回报。警报数字有了显著改善,该设施现在达到或超过了行业公认的标准。所有报警数据的记录主数据库包括设定值、优先级、原因、操作员响应、结果、响应时间和条件报警(参见图3、4和5)。

报警管理是一项永无止境的持续改进的追求。如果不加以管理,这些数字将开始缓慢回升。重要的是要继续询问是否可以在警报平均值、常备警报和警报泛滥中找到进一步的减少。拥有一个包括记录和合理化警报的变更管理过程也是至关重要的。该流程必须包括一个要求,即在将告警添加到DeltaV系统之前,每个新告警都已完成并批准了数据库信息(参见图6)。

根据所提供的资料汇编爱默生

本文发表于应用自动化补充的控制工程
而且设备工程

-请参阅下面补充的其他文章。