通过过程控制,数据中心的设计-构建升级变得更加容易

M.C. Dean采用新的过程控制系统精简,将冗余和安全性设计为数据中心设施,包括6个控制面板(2个PLC和4个远程I/O), 2个冗余自动化站,16个远程I/O机架,超过1,800个硬I/O点,5个操作员工作站,2个服务器机架,10个网络机柜和45个网络交换机,用于收集超过35,000个软I/O点。

安东尼·潘诺尼著 2015年1月5日

2012年开始了一个替换过时数据中心的项目;M.C. Dean专注于建设新的LEED金牌设施,以支持6兆瓦的数据层,最终将扩展到10兆瓦。该项目包括6个控制面板(2个PLC和4个远程I/O), 2个冗余自动化站,16个远程I/O机架,1800多个硬I/O点,5个操作员工作站,2个服务器机架,10个网络机柜,45个网络交换机,收集35000多个软I/O点。

当前数据中心最大的问题是它的年龄。多年来,网络和电力电缆在数据中心地板下纠缠在一起,这使得排除连接问题变得极其困难。供暖、通风、空调(HVAC)系统已经超出了设计极限,而不间断电源(UPS)系统太旧了,以至于在系统中断时缺乏保持设施在线所需的备用电源。

这一问题随时可能导致该设施关闭,持续数天。仅仅一天的潜在IT服务中断就会给公司带来2500万美元的生产力损失。建设新的数据中心面临许多挑战和设计要求,包括将设施系统集成到一个运营商平台中,满足正常运行时间Tier III认证,以及将物理和虚拟安全集成到设计中。

三个主要学科对该项目有贡献。电气部分由M.C. Dean完成,包括电气开关设备、保护继电器、电气计量、照明和火灾报警系统。M.C. Dean还负责控制部分,包括机械过程控制、监督控制和数据采集(SCADA)接口、设计和构建控制面板以及设计网络基础设施。Southland Industries负责该项目的机械部分,包括设计机械工艺,尺寸和选择设备,如冷却器,泵和空气处理单元,以及控制设备的工业仪表。Southland还负责提供建筑自动化系统,该系统为设施中的非关键HVAC空间提供服务。

无缝集成

将所有设施系统无缝集成到一个工作站是该项目最重要的设计要求。客户使用代表六个系统的四个工作站来操作该设施,以评估公用事业工厂的状态。所有的数据都存在于独立的工作站和软件包中,这使得很难排除问题并跟踪维护活动。对于新设施,客户寻求一个集成的解决方案,将所有独立的硬件和软件包结合在一个中央工作站中。

三个主要系统需要集成。机械系统由几个驱动器、冷却器、泵和变送器组成,它们代表了1800多个硬I/O点。有72个变速驱动器(vfd),需要使用硬I/O进行控制,并使用Profinet进行监视。还有一些机械防滑系统,如反渗透、雨水收集、制冷剂检测和化学处理。这些防滑系统有软点和硬点,需要回到中央系统进行监测和控制。

电气设备包括120个继电器、130个电表和550多个其他电气设备,包括配电单元(pdu)、照明逆变器、UPS单元、电池充电器和智能断路器。所有这些设备都通过软I/O进行通信,有许多协议可供选择。

最后一个大障碍是建筑自动化系统(BAS),该系统旨在为设施的所有非关键空间提供服务,包括办公楼和设施访问中心。由于该系统是由机械承包商提供的,基于不同的软件和硬件包,我们需要弄清楚如何将两个系统上的图形集成到一个操作工作站中,同时保持相同的整体“外观和感觉”。

M.C. Dean以前在关键任务过程工厂的过程控制系统方面有很多经验,但从未在数据中心等关键操作环境中使用过。在与西门子一起审查了该项目并比较了几种不同的分布式控制系统后,我们决定控制系统最适合与选择的自动化站集成,以控制机械设备。此时,由于软通信设备的复杂性和数量,我们不确定如何从软I/O点收集所有信息。

有超过550个设备分布在20多种设备类型中,我们需要在选择软件时小心谨慎,以使集成尽可能快速和高效。我们找到了一个带有两个插件的控制系统,用于将通信协议集成到操作系统(OS)标签服务器中。

第一个外接程序提供了将使用不同协议的硬件设备集成到控制系统中的能力。其中一些协议包括DNP3、Modbus和IEC-60870。因为我们需要集成电气和机械系统的设备,所以这是让它们共存的解决方案。

第二个外接程序的工作方式与第一个外接程序大致相同,只是它包含了一个用于IEC-61850协议的驱动程序。这是必要的,因为我们计划使用该协议与电表和保护继电器进行通信,它们代表了整个数据中心的大多数硬件设备。这两个插件都包含控制系统框架,用于与软I/O设备通信。他们帮助将“无缝集成”的概念整合在一起,因为操作员不再需要去单独的工作站或使用单独的程序来操作该设施。

为了以最有效的方式使用外接程序,我们使用数据库自动化(DBA)工具来自动生成带有显示层次结构、所需变量、警报信号和面板的OS数据库。使用数据库工具,我们为每个独特的硬件创建一个设备“类型”,然后复制该类型以节省工程时间。因此,我们没有创建550个单独的设备并为每个设备附加标签,而是创建了20个设备类型,然后在其类型内对它们进行增量编号,以代表所有设备。

这为我们节省了大量的工程时间,否则我们就会浪费在为每个设备输入不必要的数据上。它消除了潜在的数据输入错误,因为标签与操作员面板相关联,因此如果对设备类型进行更改,该更改将反映在系统中该设备的每个实例中。

在处理硬I/O点时,通过使用批量工程工具(使用Microsoft Excel电子表格将单个I/O点格式化以导入控制系统),同样的概念提高了工程效率。我们首先在控制系统软件编辑器中创建控制模块类型。然后,我们在Excel模板文件中组织所有个人I/O点,包括机架、槽和点位置;它们属于哪个控制模块类型;它们之间的联系;以及控制系统需要的其他相关信息。然后我们将这两个项目导入工程软件,此时控制系统将自动为Excel电子表格中分配的每个设备生成控制表。

工程软件集成了大约1200个设备,减少了手动创建符号表、地址IO和表间互连所需的工程时间。这些工具帮助我们提前完成了本已紧张的施工进度,同时也保证了我们在调试过程中发现的错误数量要比我们必须通过手动数据输入进行所有编程时少得多。

垂直整合

我们面临的另一个设计挑战是在M.C. Dean内部垂直整合所有不同的项目团队。通常,项目是水平的,每个“团队”完成自己的部分,并将其传递给下一阶段的团队,以此类推。在项目结束时,当需要将所有内容整合在一起进行调试时,由于缺乏过程重叠,对问题或解决方案没有共同的理解而出现问题,并且最终以一种反动的方式解决问题。作为一家公司,我们决心不让这种情况发生,并在我们自己的公司内部和其他学科密切合作,以确保在调试的时候,设计中不会留下任何漏洞,一切都能尽可能顺利地结合在一起。

通常,我们的电气设计团队在所有电气设计中都选择使用某些保护继电器。这是他们已经习以为常的事情,也是大多数工作的典型要求。这个项目的不同之处在于,M.C. Dean控制团队必须设计和集成网络基础设施,以监视和控制电气设计团队负责选择的所有这些继电器。这是垂直整合方法中我们必须克服的第一个障碍。

电气设计团队开始寻找其他保护继电器制造商作为标准继电器的可能替代品。另一条继电器线路作为一种可能的替代解决方案进行了研究。

我们要求每个制造商为这个项目设计一个测试,我们可以在我们的办公室进行测试。在审查了设计之后,我们对每个制造商解决方案之间的异同进行了预测试分析。然后,每个制造商都建造了一个机架,其中包含了复制我们将在现场使用的主-领带-领带-主阵容所需的所有继电器。一个机架由“久经考验”的冗余星形拓扑组成,而另一个机架是IEC-61850中继平台。每个制造商的代表都加入了我们,同时我们在3天的时间内对机架进行了并排测试和比较。我们比较了许多不同的组件,包括网络速度、易用性、安全性、冗余和整体功能。

我们进行的一个实验是确定中继处理从HMI发出的命令然后向同一HMI发回响应的速度。我们使用全球定位系统(GPS)时间时钟来标记中继和人机界面之间发送的信息。一个继电器的平均延迟约为3.8秒,而另一个继电器的平均延迟仅为0.7秒。更快的中继具有灵活性,允许最终用户确定他们想要在中继中处理逻辑的扫描时间。这与基于时间过程PID循环和其他关键信息的具有不同扫描时间的PLC非常相似。另一个继电器没有任何选项来调整逻辑的扫描时间,确定是测试中的瓶颈。

最终,所选择的技术更具成本效益,减少了实现设计所需的物理基础设施,简化了控制器内的编程工作,并提供了更快,更强大的继电器。如果我们没有退后一步,考虑不同的解决方案,我们就会浪费材料和工程时间来提供不那么优化的产品。

冗余、可靠性

该项目的另一个设计要求是获得Uptime Institute的Tier III认证。Uptime Institute是一家第三方公司,它代表了一个客观的基础,用于比较基于分层标准的指导方针的项目基础设施的功能、容量和预期可用性。

该项目获得了第三层认证,其中包括诸如为数据中心层提供服务的任何设备的并发可维护性等指导方针。此外,分布路径中的每个容量组件和元素都必须能够按照计划从服务中移除,而不会影响任何IT设备。当从系统中移除冗余组件时,还必须有足够的容量来满足站点的需求。

与任何数据中心一样,该设施的唯一目的是在不中断服务的情况下支持服务器操作。这一要求延伸到电气设备、机械系统、网络基础设施和连接一切的控制系统。这个需求迫使我们考虑系统的物理和虚拟漏洞,以及我们如何合并必要数量的冗余路径来满足认证指南。

我们首先设计了两个冗余操作室,其中包括操作系统服务器、GPS时钟和操作员工作站。这两个房间将作为彼此的备份,以防在一个地方发生灾难性事件。每个操作系统服务器、plc和工作站都有一个冗余的物理连接到网络,在许多情况下,我们超出了N+1的要求,几乎没有额外的工作。

从那里,我们确定了网络上需要存在的所有电气开关设备位置,并为每个位置创建了一个“节点”。每个“节点”由一个网络柜表示,其中有两个冗余交换机,由两个独立的冗余UPS电源供电。然后这些节点通过光纤连接在一起,形成环形拓扑结构。这种环形拓扑允许我们满足N + 1网络冗余需求,因为我们可以承受环形上的任何段丢失,并且仍然保留与以前相同数量的容量组件。

我们需要收集信息的大多数设备都位于开关柜本身。这些设备包括电表、保护继电器和智能断路器。为了将这些数据收集回一个集中点,我们在齿轮内部增加了较小的开关。这些较小的交换机在连接时形成一个环,然后与主网络环耦合形成子环。因为我们能够再次为子环使用环形拓扑,所以它允许我们添加另一层冗余,以便如果子环交换机发生故障,它不会影响主环上的网络基础设施。

我们从保护继电器测试中学到的一件事是,故障后的网络恢复时间是多么重要。我们探索了几种不同的冗余协议选项,例如媒体冗余协议(MRP)和快速生成树协议(RSTP)。MRP协议规定,从网络链路故障到冗余路径接管的最大恢复时间为200ms。在环形拓扑结构中连接50个或更少节点的任何网络都是如此。另一方面,RSTP通常工作在网状拓扑结构中,网络中存在的每个节点的平均恢复时间为50ms。如果您有一个8个节点的网络,您应该期望看到400毫秒的恢复时间。

在中继测试期间,我们使用GPS时钟对断开每个制造商中继上冗余网络连接的一侧后发送和接收的消息进行时间戳。一个中继使用RSTP协议的恢复时间为900毫秒,而另一个中继使用MRP协议的恢复时间为5毫秒。一个中继板载网口未被管理,形成一个MAC地址。根据需要连接管理网络交换机,以解决网络中发生故障的位置,然后确定如何从中恢复。

每个新的中继都有两个管理的网络端口,带有独立的MAC地址。当环断开时,故障点两侧的继电器可以重新配置自己,并让网络知道问题的位置。这节省了宝贵的时间,并减少了切换期间数据丢失的机会。

除了网络冗余,我们还在系统总线上实现了冗余。系统总线由两个冗余的PLC面板组成,它们在物理上分开,以增加系统在一个机架损坏时的可用性。除此之外,我们有四个远程I/O面板,每个机柜中有两到三个I/O机架。

所有这些PLC和可重构I/O (RIO)面板通过使用光链路模块(olm)的冗余光纤环连接。这些模块允许我们将每个面板中的I/O机架之间的Profibus转换为光纤,以便在面板之间的长距离上传输信号。由于每个冗余olm都连接到I/O机架内自己的通信模块,因此它允许系统容忍机架级的故障,而不会丢失任何数据。

我们还选择使用自动化站来实现冗余功能。高可用性允许两个plc在主/备用配置中运行,以便在发生故障时不会丢失功能或数据。面板还包含一个热插拔背板,它允许我们在不中断服务的情况下交换I/O卡和通信模块。这两种选择对于实现Uptime Institute Tier III标准的冗余要求至关重要。

物理、虚拟安全

在监控与数据采集(SCADA)和过程控制领域,网络安全已成为一个日益热门的话题。黑客可以控制SCADA系统,并对关键设施造成严重破坏。该项目位于气隙系统中,以防止任何来自外部影响的不必要攻击。然而,更大的威胁存在于经常访问设施内的网络硬件和控制组件的个人。为了解决这个问题,我们实现了几个入侵检测措施,以帮助识别构建员工或供应商对系统组件的篡改。

每个PLC和RIO机柜都配备了一个门开关,该开关连接到机柜内的数字输入卡。当机柜门被打开时,操作人员将收到未经授权进入或在常规维护/故障排除活动之外打开的门的警报。我们遇到的一个问题是如何在遍布整个设施的网络机柜上实现相同的安全性。我们本可以将同样的门开关连接回最近的PLC或RIO面板,但我们决定跳出框框思考。

我们的解决方案使用环回测试器的概念来确定位于网络机柜内的交换机端口的链路状态。环回测试器将“发送”和“接收”引脚绑在一起,这导致端口变得活跃并开始丢弃数据包。如果在Tx和Rx引脚之间的两个链路都断开,则在该交换机上发生链路丢失告警。同样的方法也用于确定网络柜门何时打开。

我们在每个机柜上安装了一个瞬时门开关,并将开关触点绑在RJ-45到端子排适配器上。机柜门打开时,门开关会断开网口的Tx和Rx引脚,导致网口失去链路状态。然后,操作员将通过SNMP陷阱收到警报,告诉他有人打开了现场的柜门。如果这是正常维护检查之外的未经授权的操作,操作员可以提醒安全人员,并根据警报文本将他们引导到确切的房间位置,以确定是否存在威胁。

您可以采取许多措施来防止对控制系统的物理威胁,但很多时候这是不够的。需要实现适当级别的虚拟安全,以防止有人获得对网络的物理访问时受到威胁。我们使用了许多安全措施,例如vlan、基于MAC地址的端口安全性和链路警报,以保护网络免受内部入侵者的攻击。

我们使用vlan来分隔网络上不同的设备组。这使我们能够隔离不同设备和网络不同部分之间的单个数据包,以提高安全性。如果有人要从位于VLAN 1上的端口访问网络,他们将无法访问VLAN 1以外的任何设备。

我们还使用了基于MAC地址的端口安全性来进一步加强网络。这允许我们为网络上的每个端口分配一个MAC地址,这样只有具有该MAC地址的设备才能在插入该端口时进行通信。如果网络电缆被拔出,操作员将收到一个警报,表明该特定设备已被断开,并在必要时采取进一步行动。如果入侵者试图插入一台笔记本电脑,入侵者将无法与端口通信,因为笔记本电脑的MAC地址与原始设备的MAC地址不同。除了这些安全措施外,我们还禁用了所有没有连接设备的备用网络端口,以便在没有软件重新编程的情况下无法正常工作。

设备制造商通常会为配置界面分配默认用户名和密码。99%的情况下,这些凭证都是出厂默认设置,任何人都可以在制造商的文献中查找它们以获得访问权限并更改设置。我们确保每个设备都更改了其凭据,以防止这种威胁。

最终用户不可见

该控制系统在世界上一些最关键的工业工厂中使用。无论是否正在生产挥发性化学品或重要信息受到保护,控制器的复杂性和可靠性都最适合该项目的需求。关于将所有不同的系统集成到一个对最终用户不可见的内聚包中,我们遇到了许多设计挑战。控制器提供了所需的框架和附加组件。

冗余对我们来说是一个主要问题,我们必须仔细研究。从硬件层面来看,自动化站满足了在一台PLC发生故障的情况下保持工厂正常运行的要求。控制器软件具有许多冗余功能,可以自动切换客户端和服务器,避免任何服务中断。软件工具可以轻松配置数千个点和设备,而无需手动输入每个事件。这为我们节省了数百个工程时间,并确保在复制类似设备时不会出现错误。总的来说,选择的控制器对我们来说是正确的选择,我们期待在未来的项目中实施它。

- Anthony Pannone是华盛顿特区M.C. Dean Inc.的控制工程师;内容经理马克·t·霍斯克编辑,控制工程mhoske@cfemedia.com

关键概念

  • 过程控制系统是信息的集中集成点。
  • 数据中心升级设计具有冗余性和安全性。
  • 项目包括6个控制面板、冗余自动化站、16个远程I/O机架等。

考虑一下这个

在一个大数据集成价值日益受到鼓励的时代,一个新的控制系统能否提供一个集成的漏斗?

在线额外

-了解以下数据中心项目中使用的西门子的更多信息。