管理风险不要失败

跳伞运动员自由落体时脸上的灿烂笑容来自两件事。首先,在太空中自由落体的快感是无法掩饰的;其次,跳伞运动员确信他们在走出飞机前已经正确评估并减轻了风险。仔细的检查和设备准备,数小时的严格训练,可靠的备份系统允许天空…

通过Dave Harrold控制工程 一九九九年十二月一日
关键字
  • 先进的过程控制和自动化

  • 计算机软件

  • 开放系统

  • 质量保证

  • 安全

  • 标准及规例

  • 系统分析与设计

  • 测试

栏:
不遵循最佳实践将软件置于风险之中
管理风险提高产量

跳伞运动员自由落体时脸上的灿烂笑容来自两件事。首先,在太空中自由落体的快感是无法掩饰的;其次,跳伞运动员确信他们在走出飞机前已经正确评估并减轻了风险。仔细的检查和设备的准备,数小时的严格训练,可靠的备份系统,使跳伞爱好者在1998年在美国进行了超过325万次跳伞,死亡率低于0.001%。

在过程和制造环境中,风险评估经常被保留给作为项目一部分进行的正式危害分析和可操作性研究(HAZOP)。现实情况是,我们每个人几乎每天都在家里、在旅途中或在工作中面临某种形式的风险评估。它可能是选择使用带滚轮的椅子而不是梯子,加速通过即将变红的交通灯,或者试图做一个英雄行为来防止工厂关闭,每一个都是我们选择承担的风险。在很多情况下,是盲目的运气让我们远离伤害。大多数时候,它不应该是这样的!大多数情况下,有时间主动评估风险并制定适当的预防措施。

管理风险,减少意外

跳伞运动员不喜欢在跳伞时出现意外。许多公司选择超越需要手动操作备用降落伞的监管合规,拥抱风险管理。只需1200美元的投资,跳伞运动员就可以从遵守规定转变为风险管理,使用计算机化的自动降落伞激活系统,该系统配备了高度和速率传感器,在条件变得不安全时触发自动打开降落伞。

就像跳伞运动员一样,制造商要在合规和风险管理之间做出选择。

在1999年2月AMR Research(诺伍德,马萨诸塞州)的一份关于环境健康和安全的报告中,高级分析师雷夫·埃里克森对比了合规管理的不双赢局面与拥抱风险管理所带来的竞争优势。根据埃里克森的报告,合规管理是一个不断变化的法规的反应性游戏,临时的方法往往会导致支持成本高于购买成本的点解决方案。埃里克森建议遵循前瞻性思维,多厂企业选择使用生命周期成本来获得竞争优势。埃里克森说,采用“从摇篮到坟墓”风险管理理念的公司会花更少的时间关注当前的监管规定,而会花更多的时间确保自己能够应对任何监管规定。

当风险得到主动管理时,意外发生的次数就会更少,几乎在每个商业领域,意外越少,担忧就越少,利润就越高。例如,美国联邦储备委员会主席艾伦·格林斯潘最近通知银行业要预料到银行监管方面的“重大”变化。格林斯潘有理由担心,最近的银行合并、银行战略的变化以及银行对风险的偏好增加了一家银行倒闭严重损害美国或世界经济的风险。

在21世纪上半叶,制定缓解策略以避免经济崩溃将是重要的新闻,但这些策略能否像过去几年那样获得电视和报纸的报道,还很难说。

2000年千年虫使世界上许多国家认识到评估和减轻风险的重要性。也许风险评估和缓解并不是现在使用的确切词汇,但这正是千年虫的全部含义。任何读过一篇关于Y2K的文章的人都知道,60年代、70年代甚至80年代的软件开发人员通过多年使用两位数来节省计算机内存(例如,99 = 1999,00 = 1900或2000)。我们不知道的是二三十年前编写的软件今天仍然存在。

当2000年即将到来时,两项缓解千年虫问题的工作开始了。第一种方法是程序员检查数十亿行软件代码,以发现并修复两位数的问题。第二次缓解努力发生在那些怀疑千年虫问题已经被发现和解决的人中间。第二种人正在为最坏的情况做准备,他们购买发电机,储存食物和水,在后院埋钱,准备回归原始生活。

假设问题将被(或大部分)发现和解决,我们的本性要求我们确定额外的利益,以帮助证明为Y2K花费的数十亿美元和数百万小时是合理的。

展期的优势

制造业用户与Y2K努力相关的重要好处包括:

  • 大多数制造场所和信息技术集团都对车间内或附近受到两位数数据翻转问题影响的软件和嵌入式设备的数量和种类感到惊讶。开发这种独特的一次性库存迫使大多数公司重新考虑如何指定和部署系统;

  • 许多Y2K团队利用这个一次性的机会来替换或将他们的制造软件和系统提升到最新的修订级别。如果一个供应商软件的单一副本存在于另一个供应商软件的多个副本中,“奇球”软件将被取代。类似地,千年虫团队更换了整个控制系统,有时是因为旧系统无法符合千年虫的要求,有时是因为这种改变便于将来的支持;而且

  • 许多需要Y2K合规性审查的软件都是单一的,构造很差和/或不一致,并且经常缺乏有意义的注释。这些缺陷——在工厂系统和企业系统中经常发现——突出了开发、使用和维护健全的软件设计、实现、测试和变更控制指南和标准的重要性。

在最近的AMR Research会议上,高级分析师Kevin Prouty分享了他过去使用设计糟糕、文档记录不佳的软件的经验。

到了给工厂增加一台新压力机的时候,软件开发工程师告诉普罗蒂,从头开始编写新逻辑所需的时间要少于找出并重新设计现有的压力机逻辑所需的时间。

像这样的故事太常见了,存在的原因不是千年虫,而是因为为工厂车间使用开发的软件被称为软件以外的任何东西,从而避免了“真正的”软件的审查。这需要改变!

幸运的是,不管怎样,千年虫问题很快就会过去。假设我们没有回到原始生活,我们应该应用我们已经知道但被忽视的东西和我们已经学到的东西。

避免重蹈覆辙

1999年9月,美国国家航空航天局(NASA)的火星气候轨道飞行器在火星表面坠毁,原因是两组软件工程师使用了不同的编程标准。一个团队使用公制单位,另一个使用英语单位,设计用于建立火星轨道的软件程序“崩溃了”。

在未来,与工厂地面接触的软件设备的复杂性和数量将会增加,除非管理得当,否则类似美国宇航局火星轨道飞行器的事件将会发生。

像NASA一样,用户越来越依赖用户和系统集成商团队来配置、编程和集成特定于应用的解决方案。为了避免类似nasa的错误,用户应该回顾他们如何指定、选择、购买、接受、维护和支持依赖软件的产品和应用解决方案。

Y2K已经证明了软件可以存在20多年——确保软件在很长一段时间内是可维护的——需要在软件的整个生命周期中使用经过验证的标准和过程。

一些用户公司有“首选的”集成商和工程承包商,这些集成商和承包商在不同的工厂区域之间是不同的。使用不同的合同人员是可以的,但是如果最终用户的软件开发和编程标准与集成商的标准不协调(例如,公制和英语单位的综合症),风险就会增加。

在用户应该问自己和他们的供应商/集成商的问题中,你是否有到位的,你能否验证你:

  • 遵循已建立的软件开发标准?开发标准确定了负责开发软件规范的个人,指定了权限,并定义了设计、提交、审查和批准软件规范的步骤顺序;

  • 遵循已建立的软件编程标准?编程标准定义了软件的逻辑结构,如何使用预先设计和测试的库模块,如何组织和记录新软件,如何命名变量,如何管理修订,如何和谁负责测试,以及如何记录、纠正和验证错误以删除;

  • 是否有一致的过程来记录和管理软件生命周期中的变更?

  • 对如何管理、测试和验证系统范围内的硬件和/或软件升级有一致的程序?

  • 维护交付给客户(或用于制造客户产品)的每个软件修订版本的副本,并在场外存在副本,以防止灾难发生时的损失?

  • 是否有在公司被合并或不复存在时仍可使用软件的规定?而且

  • 是否有程序记录、测试和验证硬件和/或软件退役不会对剩余设备和/或软件程序产生不利影响?

开放软件标准,如Microsoft Foundation Class、OLE for process control (OPC)、ActiveX、visual basic (VB)等,被用于新的控制和自动化系统,为用户提供了更大的灵活性和选择自由。但是,随着灵活性的增加,人们需要花时间和精力来建立健全的软件设计、编程、测试和支持标准和过程。

灵活性带来责任

传统的工厂车间控制和自动化系统编程主要由了解过程并愿意学习“编程”的仪器和工艺工程师和技术人员主导。有些已经采用、开发或发展了自己的编程标准和指导方针。但是除了少数例外,控制和自动化程序很少使用模块化编程技术,这使得很难确定何时发生未记录或未经授权的更改。

许多较新的软件开发环境包括审计跟踪和修订管理工具。没有此功能的系统可以利用第三方工具,这些工具可以自动进行软件收集、归档、修订比较和报告(搜索www.globalelove.com/buyersguide以查找提供软件修订跟踪工具的公司)。

今天,新的控制和自动化系统使用面向对象的编程技术。

面向对象编程允许开发模拟物理实体(即电机或流量控制器)的软件对象。每个对象都有相关的属性(例如,操作员面板、标签、工程单元、命令、I/O通道等)。对象可以创建和测试一次,并作为模板使用,以提供一致性并减少实现工作量。

新的统一(混合)控制系统(UCSs)旨在识别对象,并仅使用每个统一设备任务所需的属性,消除了重复编程,简化了集成,而不影响使用其他供应商产品的开放性。

能够依赖UCSs提供的面向对象的开发环境对管理软件开发风险大有帮助,但它并不能消除风险。用于开发UCS的标准(例如,Microsoft Foundation、ActiveX、OPC等)为用户和/或集成商提供了使用VB或c++部署自定义应用程序的灵活性。在销售周期中,这听起来不错,但它(再次)打开了一种可能性,即将构造不佳和文档记录不佳的软件作为控制和自动化系统的组成部分。用户必须理解并接受选择灵活、开放的控制系统的责任。只有当用户将跳伞者的风险管理心态应用到他们的控制和自动化系统中时,他们才会知道会发生什么,并为各种可能性感到兴奋。

有关AMR研究的更多信息,请访问www.globalelove.com/freeinfo:

不遵循最佳实践将软件置于风险之中

避免软件错误需要遵循良好的软件设计、开发、测试和变更管理。如果缺少或跳过这些元素中的任何一个,软件的完整性就会受到损害,人员和资产面临的风险就会变得可怕。

下面的软件事件强调了遵循最佳实践来降低软件风险的重要性。

1997年11月24日,美国联邦航空管理局面临大规模电脑关闭。计算机程序员发现由于从31位计数器翻转到32位计数器导致内部时钟错误。检查了超过100万行代码,做出了15万处更改,并在命运之日之前完成了“修复”。

1996年11月26日,计算机软件升级安装错误,导致计算机注销并锁定2000名目录辅助操作员。

1996年2月19日,加拿大航空公司899航班拖着尾部升空。最近对货物装载程序进行了软件修改,以包括一种新的飞机类别,但没有测试与现有飞机装载计算的交互作用。899航班装载不当。手动计算验证不正确的计算机加载数据。

1997年1月11日,一名员工改写了快餐店收银机的程序,私吞了3600美元,被抓,被判10年监禁。

1995年11月13日,带有特定BIOS的计算机用户在启动时一遍又一遍地听到“生日快乐”歌曲。被解雇的员工离开公司前的最后一件事是在生日那天编程唱生日快乐歌。

1994年4月28日,一位计算机分析师连续三次从20个数字中选择19个,赢得62万美元。赌场机器用来产生随机数的内部时钟不见了。每次机器复位时,它都会生成相同的数字序列。

1985年6月至1987年1月,6例患者在放射治疗中过量服用。为一台放射治疗机设计的软件经过修改,可以在另一台放射治疗机上使用。机器安全由软件控制,但机器使用不同的计算机处理器,中断周期也不同。放射治疗师非常熟悉机器的设置顺序,他们输入数据的速度比计算机读取和存储设置数据的速度还要快。患者辐射剂量输入丢失,机器默认为100%剂量水平。

软件无处不在,它以我们无法想象的方式影响着我们的日常生活。当那些负责设计、开发、测试和维护可靠、健壮的软件的人跳过一个重要步骤时,哪怕只是一次,数百万人的生命就会岌岌可危,包括你我的。

管理风险提高产量

由于GE塑料树脂2厂(渥太华,伊利诺伊州)完成了OSHA(美国职业安全与健康机构)1910.119 -过程安全管理(PSM)法规,从而极大地节省了时间和成本。反应器启动时间从40分钟增加到20分钟,达到标准产品所需的时间从8小时增加到8小时。到2小时。

在实施通用电气的六西格玛质量改进过程的同时,osha要求的五年PSM评审即将到来,这一挑战最初被视为主要的资源流失,直到GE人员想到应用六西格玛过程来满足OSHA-PSM的要求。

团队会议确定了取得成功所需的三个要素:良好的团队化学反应,商定的团队挑战,以及使用正确的工具。

为了解决团队化学问题,Resin 2人员召集了来自技术、操作、工程和安全方面的代表。四个核心团队成员是根据他们对所研究的过程的知识选择的。根据需要使用了额外的资源,包括起草、维护和操作。三个核心团队成员最近完成了六西格玛绿带培训,一个黑带大师被指派提供全面的项目指导。

为了取得成功,团队挑战自己,避免相互指责,并将调查重点放在过程安全和改进机会上。

经过调查,选择故障树分析(FTA)作为用于控制生产质量的过程建模工具。该团队认为,由于FTA是使用故障逻辑从上到下构建的,因此能够识别根本原因将导致质量和生产的改进。为了帮助开发和分析FTA, GE与Triconix(德克萨斯州LeMarque, Tex.)签订了合同,以促进过程,并提供软件工具来记录和分析结果。

在开始之前,团队收集了管道和仪器仪表图表(P&ID’s)、操作程序、反应动力学和热力学报告、维护记录以及仪器和设备故障率数据。

从所有反应物和添加剂的列表开始,构建了列出每种成分的用途、产品质量问题和加工步骤的表格。表信息结合P&ID信息和设备故障率数据成为构建故障树所需的信息。

利用FTA工具对每棵故障树进行分析,并将量化结果作为最终输出。核心团队将分析结果与实际工厂经验进行了比较。一旦发现不符点,就进行调整和新的分析。这个过程不断重复,直到团队认为所有FTA结果都准确地代表了操作经验。

有了准确的量化信息,团队继续开发并优先考虑建议,以降低风险,提高与流程启动相关的质量和吞吐量问题。虽然有些建议需要花钱才能完成,但管理层对方法、结果和团队的信心印象深刻,因此批准了资金。

该团队学到的东西,后来应用到工厂的另一部分,是对过程和控制系统进行一点一滴的剖析,使他们能够确定需要改进的地方。如果使用不那么严格的风险管理方法,这些改进可能会被忽视。

有关Triconix的更多信息,请访问www.globalelove.com/freeinfo。

阅读GE塑料如何使用六西格玛和故障树分析来改进流程并满足OSHA合规访问的扩展版本

有关六西格玛质量改进过程的更多信息,请参见CE, 1月99日,第62页和CE, 3月99日,第87页。