菜单
服务热线:135-8154-2972(贾)/ 159-0138-9092(马)
漠视“安全报警”的风险代价……“大灰狼真来了”!
时间:2021-08-04来源:点击:2747分享:

摘要

“狼来了”是大家耳熟能详的寓言故事,这则寓言对那些仍在麻痹中祈祷、赌运气的危化品企业很有启示意义。“安全关键报警”扮演了故事中的“牧童“角色,操作员则相当于故事中承担施救任务的“村民”。而漠视“安全报警”的风险代价远远超乎普通人的直觉认知,报警响应失效酿成的惨祸不再只是头脑中的想象场景,屡屡发生的工艺(过程)安全事故就如同“狼来了”的故事结局,悲剧场景在现实中的一幕幕地重演。

 那么要如何才能筑牢报警响应这第一道事故防线?表表决心、喊喊口号等形式主义的做法显然于事无补,甚至适得其反。本文介绍了基于标本兼治的体系化解决之道。简言之,危化品企业应基于ISA18.2/IEC62682标准,建立实施涵盖报警系统生命周期各阶段有效的报警管理体系,并配套应用专业的智能化先进报警响应管理系统软件(如北京思创的SARMS),从而帮助操作员提高响应效能。   

1.png

一、工艺(过程)安全事故教训和报警响应失效机

ISA-18.2 / IEC 62682标准中的术语“报警”专指向操作员指示设备故障、工艺偏差或其它需要及时响应的异常情况的视听刺激手段。

应确保报警系统以正确有效的方式和时间提供正确的信息,以使控制室操作员及时洞察险情并采取正确的响应行动以纠正异常工况,从而避免事故或尽量减缓后果(人身伤亡、设备故障、资产或环境损害)。


2.png


绝大多数情况下,“自动报警+人工响应”都是抵御重大安全事故的第一道重要防线。迄今为止,国内外所有的工艺(过程)安全事故的原因几乎都可以追溯到报警响应这一防线的失守。报警响应失效酿成的惨祸不再只是头脑中的想象场景,传说中“狼来了” 的故事一次次在现实中重演,其中典型的事故如下:


  • 1994年英国Milford港Texaco炼油厂爆炸

  • 2018年1月22日美国Pryor Trust井喷事故

  • 2005年3月23日BP Texas City炼油厂大爆炸

  • 吉林石化双苯厂硝基苯精馏塔11.13特大爆炸


报警响应安全防线由如下图所示的三大子系统组成,依次完成侦察险情-诊断决策-响应动作三项任务,缺一不可,其中任一环节失效都会导致整体防线的失守,从而导致报警响应的失效机制。


3.png


上图中的硬件(传感器、DCS/PLC控制站、执行器和HMI操作站硬件)失效在PSM(工艺过程安全管理)体系中属于设备完整可靠性管理的要素范畴,在此不作阐述。众所周知,有效的操作人员对最大限度地提高生产效率、产品质量和生产装置的安全可靠性至关重要。而且,目前存在一个自动化和人因可靠性之间的悖论,即自动化程度越高、范围越广越可靠,操作员越盲目乐观,重要线索越容易被忽视或误解。自动化系统一但有故障,对操作员的要求反而越高。然而,操作员的人因失效除了受制于报警的可靠性,还涉及到PSM的COO/OD(运维管理和纪律)、SOP(标准操作规程)、培训和绩效保障、应急响应等多个要素,在此也不详细讨论。本文讨论重点是和操作员响应有密切关联的HMI和相关报警软件如何为操作员提供有效的帮助,以完成以下三大任务环节:


1、侦察(传感设备+HMI+视听刺激+人工观察):报警信息如何有效帮助操作员透过现象(视听刺激),洞察本质(事故因果剧情)?

2、诊断(HMI+人脑思考):报警信息如何提供明确充足的决策分析依据(例如危险剧情、优先级和响应时间)?

3、响应(人工+执行设备):响应规程联动如何帮助操作员执行决策并密切观察干预效果反馈?


二、自控系统内置报警功能的典型症状:泛滥低效

DCS等自控系统内置报警功能存在以下几种妨碍操作员响应性能的典型症状:

  • 报警洪灾。

  • 高频(抖颤)报警。

  • 滋扰报警。

  • HMI设计不良。

  • 报警管理不善。

  • 报警信息孤岛。

4.png


模拟仪表时代,每名操作工每个班次平均收到100条报警,而DCS普及后的数字化时代,报警设置变得异常容易方便,导致报警数量急剧增加!每名操作工每个班次平均收到4000条以上的报警,远远超过操作员能够从容应对的设计负荷限制。这带来了新的难题和挑战,面对频繁、甚至泛滥)且无类别和优先级划分的报警事件, 操作员没有能力对隐藏其中的真正险情临时做出正确的诊断评估和及时的响应决策,大量无关紧要的滋扰报警(如同“牧童的谎报”)令日趋麻痹的操作员(如同“村民”)完全漠视报警,甚至违规全面抑制(屏蔽)报警功能。而当险情真正降临时(“大灰狼真来了”),操作员面对报警洪灾而不知所措(如1994年英国Milford港Texaco炼油厂爆炸事故),甚至因违规关闭报警系统以致于操作员对近在咫尺的险情毫无察觉而束手无策(如2018年1月22日美国Pryor Trust井喷事故),最终酿成惨重事故。


三、ISA18.2/IEC62682报警生命周期管理体系:标本兼治之道

如何筑牢报警响应这第一道事故防线呢?答案是通过有效的报警管理提升操作员的响应性能。那么如何管理才称得上有效呢?有效解决方案就是建立实施基于ISA18.2/IEC62682标准的涵盖报警系统的全生命周期各阶段(识别与合理化、设计、采购和实施、运行维护、性能监测评估、变更管理、体系审计和改进)的基于PDCA内外双循环的报警管理体系,并配套应用专门的智能化先进报警响应管理系统软件,从而为操作员创造一个能够及时正确侦察感知、诊断和响应报警的良好环境。这是解决本文上一章所列举的自控系统内置报警功能各种典型症状的标本兼治之道。





本文第二章列举了DCS等自控系统内置报警功能的各种典型症状,其共同根源可以归结为缺乏上图所示的报警管理体系,具体主要表现在以下方面:

首先,没有制定报警导则和开展各项活动所需的详细规程,报警未经合理化分析而随意设置,导致报警数量太多且无类别和优先级划分,报警点的设定仅凭经验直觉而缺乏基于PST(工艺过程安全时间)和可容忍响应时间的计算依据,HMI报警显示界面上无完整的危险剧情和明确具体的响应规程。

其次,自控系统内置软件无报警管理功能,对其KPI(关键性能指标)无法进行持续的监测评估和统计分析,从而无法对报警合理化的结果和后续的设计做针对性的优化调整(变更),也未开展体系审计以形成良性的PDCA循环。另外,除一线操作人员外,管理层对报警及其处置情况无法及时了解,不利于生产调度和决策指挥。

尽管操作员的可靠性还涉及操作规程、培训及演练、操作管理和纪律等PSM(工艺过程安全管理)要素(非本文讨论范畴),但如本文第二章所述,报警系统自身的性能直接影响操作员的侦察和诊断决策的可靠性。美国CCPS在一篇专著指出:KPI(性能指标)不受监控的报警系统在本质上属于薄弱低效的系统,有时甚至几乎等同于完全损坏(无效)。对报警系统缺乏有效管理和监控会导致报警泛滥低效常态化,进一步迫使操作员随意抑制报警,最终使得报警响应这第一道事故防线几乎形同虚设!

特别需要注意,对报警系统KPI的实时监测和周期性精准统计分析是确保报警管理体系PDCA循环的关键保障,而通过人工方式不仅效率低下,而且仅能统计一到两项简单指标(如前10位频繁报警),准确度、计划性和及时性也不够高。因此,需要依托专业的智能化先进报警响应管理系统软件(比如思创公司开发的SARMS软件)自动监测统计分析下表所示的多项报警系统KPI(关键性能指标)基准(至少统计30天):


7.png


要改善上表中的KPI,尤其是要减少报警数量,必须确保ISA18.2/IEC62682报警生命周期管理体系形成PDCA良性循环,其中有两项任务极其关键,即持续的报警KPI性能监测与报警合理化。

是对每一个报警信号(尤其是报警率高的信号)开展正规的合理化分析,以确定该报警是否必要,另外对报警进行分类,并计算报警设定值、确定报警优先级,然后进行基本设计(设置报警死区、延迟时间等属性与参数),必要时采用先进(增强型)报警设计方案。

二是安装智能化先进报警管理系统软件(如北京思创的SARMS),对每套装置的报警信号实时在线统计分析,发现并消除滋扰报警、陈旧报警、频繁报警、报警洪灾等,对报警系统持续进行优化(返回合理化和设计阶段),降低报警率。需要注意,报警合理化并非一次性工作,而是基于持续的报警KPI性能监测和周期性(7~30天)统计分析反馈结果而相应重复开展的活动。


四、SARMS智能化先进报警管理系统软件:报警管理体系有效实施的必备工具

综上所述,ISA18.2/IEC62682报警生命周期管理体系是针对自控系统内置报警功能各种典型症状的唯一的标本兼治之道,为操作员创造能及时正确侦察感知、诊断和响应报警的良好环境以提升操作员响应性能奠定了基础,是筑牢报警响应这第一道事故防线的根本前提。那么企业应如何践行ISA18.2标准呢?首先是对相关人员开展必要的培训,然后制定APD、报警系统KPI基准、ASRS以及各阶段活动的管理和技术规程,最后根据规程开展各阶段活动。

8.png


对于新企业或新建项目可按照ISA18.2报警生命周期流程图中的顺序从APD开始进入PDCA循环;对于已有APD的企业的新建项目,可以从报警识别与合理化阶段进入DCA-PDCA循环,或者先对APD做审计更新后,再做报警识别与合理化(CA-PDCA循环)。

对于现役报警系统,则宜采用CA-PD(ca-pdca)CA方式启动技术改造项目,即不从P阶段开始,而首先开展C(检查)和A(改进)阶段的活动,通过对企业报警管理现状和现役报警系统的实际性能表现做初次摸底调查与分析评估,从而为设定适当的改进目标提供依据,为后续的PDCA良性循环提供一个启动基准。

具体的做法是,首先依据ISA18.2/IEC62682标准对报警管理现状的进行初次宏观审计(基于粗略的检查表),同时依托专业的智能化先进报警响应管理系统软件对现役报警系统的KPI(关键性能指标)开展监测与分析评估(至少统计30天的数据),再根据审计和监测评估结果以及企业愿望和资源情况来确立报警系统的KPI初始基准。完成了上述初始CA阶段活动后,就可以正式进入首轮PDCA循环,完成后再重复下一轮PDCA循环,周而复始并持续改善提高(建议周期不超过1年)。具体工作内容参见本文第二章。

无论是新建项目还是现役报警系统,都必须依托专业的智能化先进报警响应管理系统软件,才能确保将ISA18.2/IEC62682报警生命周期管理体系中的各项活动纳入高质量的PDCA循环,从而持续改善报警系统的各项KPI指标,筑牢报警响应这第一道事故防线。本章对由北京思创信息系统有限公司(www.strongpsm.com)开发的SARMS智能化先进报警响应管理系统软件的主要功能和应用效果做一下简单介绍。

需要强调一下,SARMS智能化先进报警响应管理系统软件的功能用途和自控系统操作站HMI软件的报警功能用途是有显著区别的,如下图所示:

9.png


SARMS软件不仅具备对各种基于HMI软件的报警系统进行监控、管理和优化的功能,同时也具备HMI软件的报警信息监控功能,只是信息终端由控制室的操作站换成了生产管理局域网上的PC机和经过授权的手机端,数据大约有秒级的延时(接近实时)。SARMS软件的组成结构如下图所示:

10.png


SARMS软件的主要功能如下:

  • SARMS软件的数据库从DCS/PLC/SIS/GDS/FAS系统中自动采集各类信号,包括工艺报警、设备报警、易燃有毒气体报警、火灾报警、手动按钮报警等。另外,SARMS软件支持报警的初步设计功能,可在软件中设置(组态)各种报警属性,如报警限值(设定点)、报警信号类型(形式)、死区(滞环)、延迟激活/解除、报警信息(描述、原因/后果、响应规程等)。

  • SARMS软件的KPI监测评估分析模块对各类报警的各项KPI(关键性能指标)进行统计分析并与目标基准比对,显示指标差距,督促分析导致差距的原因,为报警合理化结果与设计组态的更新纠正提供依据,以消除滋扰报警,改善性能。

    11.png

    12.png13.png

  • 另外,各类报警信号可按管控级别通过局域网、手机App或短信自动推送给不同层级的管理人员。SARMS软件将报警监控功能由操作站HMI扩展至生产管理网络上的PC机和相关人员手机端,大大提高了对安全关键报警的监控力度和广度。领导层可随时随地(包括出差期间和非工作时间)接收掌握报警信息,不仅可及时协助现场进行分析和处理,还可以起到倒逼管理的作用。    

14.png


  • SARMS软件的报警合理化辅助模块支持从HAZOP软件CAH和LOPA软件CAS中导入危险剧情和相关数据,不仅提高报警合理化的工作效率,还可将数据同步至报警信息监控模块,利用HAZOP/LOPA分析结果作为知识库自动分析并显示和工艺报警关联的剧情(原因、后果、可容忍响应时间),以便操作人员及时决策和采取响应行动。


15.png


  • 对于安全关键报警信号,还可进一步与相应的报警响应规程(报警后处置步骤)联动,同时推送至PC机和手机端,推送方式和内容关联报警类别和优先级,有助于指挥人员及时决策和行动,有效发挥“黄金 5分钟”作用;报警响应规程中提供的信息可支持缺乏经验的初级操作员掌握高级操作员的知识,促进响应的一致性。如果操作站HMI软件支持,建议组态报警响应规程弹窗功能,并与PC机和手机端的信息同步。


16.png


  • 传统的纸质应急处置卡涵盖场景不全,一般限于发生危化品LOPC(失事点)之后的应对措施 ,针对性不强,未细化到针对每个安全关键报警一一对应设置专门的响应规程(应急处置方法步骤)。另外,除非操作人员在脑中熟记,否则查寻应急处置卡费时(尤其是在整本的操作手册中查找),容易错失及时阻止危险剧情传播或事故扩大的“黄金5分钟” 窗口期!而SARMS软件的报警响应规程自动推送功能可将应急处置的时间关口从LOPC后前移至工艺参数刚刚偏离报警时,在不停产的前提下保证了安全。即使对于在LOPC之后需要启动事故应急预案的安全关键报警(比如火气报警或SIF拒动报警),SARMS软件可自动推送事故应急预案以供管理层核实确认后及时下达启动预案的决策,掌控关键的“黄金5分钟”,避免事故扩大化!


17.png


  • SARMS软件支持先进报警(增强型报警)设计和组态。比如基于状态的报警/抑制,这种设计对抑制报警洪灾有显著作用。首出报警(SOE)是另外一种常见的先进报警设计。

  • 支持CSV文件格式的报警组态文件的导入和导出。


企业可采用SARMS智能化先进报警响应管理系统软件实现对全厂所有数字自动化控制系统(DCS/PLC/F&G等)的报警信息汇总和分布式监控,补充和扩展报警响应规程推送功能。同时对现役各种报警系统性能指标进行监测分析以持续改善,典型的项目工作流程如下图所示:


18.png


在上图所示的活动中,持续的报警KPI性能监测和报警合理化是ISA18.2/IEC62682报警生命周期管理体系PDCA循环中两项最关键的任务。如本文第二和第三章所述,必须依托专业软件才能确保KPI监测的质量和实时性,报警合理化可以采用电子表格工具而以人工方式开展分析(基于PH&RA),但用软件辅助分析有益于提高效率和质量。北京思创信息系统有限公司研发的SARMS智能化先进报警和应急响应管理系统软件不仅具备上述两项功能,另外还内置报警信息和响应规程全方位24小时推送(联网PC端和手机端)功能,同时具备事故前后应急响应调度指挥功能。北京思创提供和SARMS软件配套的工程服务,包括实时数据或报警信息采集,基于MADB(报警主数据库)的报警组态(配置),另外还为企业提供SARMS管理系统信息化平台搭建运行所必需的下列相关咨询服务:

1、指导业主制定体系化的报警导则以及开展报警合理化所需的标准工作规程;

2、主持或指导报警合理化分析;

3、帮助业主培养报警合理化分析的专业人才;

4、指导业主开展现场应急处置方案的可执行性分析。


当SARMS智能化先进报警响应管理系统软件信息化平台搭建调试完成并上线投运后,企业还需要制定配套的相关服务和岗位责任制度,制定工艺参数报警考核细则,加大检查和考核力度,以考核促工艺报警管理水平的提升,以确保基于ISA18.2/IEC62682标准的综合管理解决方案真正落地运行。


实践证明,使用SARMS智能化先进报警响应管理系统综合解决方案后能显著提高报警的性能指标,并有助于提升报警管理的有效性和操作员的响应性能(正确性和速度),典型的使用效果如下图所示:


19.png


某上市大型氯碱化工集团,原来各生产装置的报警率都很高,因其主要产品PVC的生产属于典型的间歇式工艺(约8 小时一个批次),在批次之间的开停工阶段更会产生报警洪灾。2021年开始逐步实施SARMS智能化先进报警响应管理系统结合报警合理化的综合解决方案后,实现了报警数量大幅降低,尤其是采用基于状态的抑制后消除了开停工阶段的报警洪灾,其中,聚合二期DCS报警数量比优化前减少了96.80%。其2021年前半年各生产装置的报警KPI均逐步改善提升,参见下表:


20.png

21.png



                                                                                          

总结

漠视“安全报警”的风险代价超乎普通人的直觉和想象,国内外屡屡发生的工艺(过程)安全事故惨痛教训为人们一遍遍地敲响警钟。牧童绝望凄厉的哭喊“大灰狼真来了”在耳边一次次地回响,试图唤醒那些可能仍在麻痹中祈祷赌运气的危化品企业。

“如何筑牢报警响应这第一道事故防线”是摆在现实面前的严峻考题,必须通过体系化的科学方法才能从根本上予以解决。

概括而言,体系化的科学解决方案就是基于ISA18.2/IEC62682标准,建立实施涵盖报警系统生命周期各阶段(识别与合理化、设计、采购和实施、运行维护、性能监测评估、变更管理、体系审计和改进)有效的报警管理体系,并配套应用专业的智能化先进报警响应管理系统信息化平台软件(如北京思创的SARMS),从而为操作员创造一个能够及时正确地感知侦察、诊断并响应报警的良好条件和环境,同时加强对操作员的报警响应日常培训和定期演练,以最大程度降低人因失误概率,确保“报警+人工响应”这第一道事故防线的安全可靠性,并和后续其它保护层的安全措施协作,共同将工艺(过程)安全事故风险降低,并维持在法律和企业的可容忍风险目标以下。此外,守牢报警响应这第一道事故防线,不仅确保了安全,还能显著减少被迫紧急停车所导致的直接和间接生产损失。另外,报警性能的改善提升有助于提高工艺状况平稳率、劳动生产率和产品质量,还可能有助于降低原料和能源消耗。


TOP