以可靠性为中心的维修 (RCM)方法已成为各行各业确保资产可靠性和效率的重要工具,从航空航天到制造业都广泛应用。RCM的实施“最常见”是遵循SAE JA1011标准,该标准为资产的一致性维护和管理提供了明确的流程和要求。
国际上存在多个涉及不同领域的标准,如质量(ISO 9000)、风险(ISO 31000)、环境(ISO 14000)和能源(ISO 50000)等。这些由国际专家制定的标准为专业人员提供了科学验证的实践指导、方法和流程。虽然单纯依靠试错已不足以应对现代挑战,但实践经验和不幸事故仍然为我们提供了宝贵的风险管理和预防教训。
资产和维护管理的最佳实践大多源于这些精心制定的标准。RCM流程就是在这样的背景下应运而生的,它起源于早期航空业面临的可靠性、安全性和成本效益挑战。20世纪50年代,传统的基于时间的维护方法已无法满足商业航空的需求。维护人员惊讶地发现,减少预防性维护的频率反而能提高系统的可靠性。
特别是在美国联邦航空管理局拒绝批准波音747型飞机后,这种需求变得更加迫切。这种大型飞机虽然设计初衷是提高运营效率,但安全记录却不尽如人意。这促使了一种新的飞机设计、运营和维护思路的产生,即RCM。
1978年,斯坦利·诺兰和霍华德·希普在为美国国防部撰写的报告中首次提出了RCM方法。他们通过一系列决策图表来创建维护策略,以保护资产在特定运行环境中的功能。
自那以后,RCM被广泛采用。1999年发布的SAE JA1011标准旨在确保所有声称采用”RCM”的流程都必须遵循特定准则。该标准不仅定义了RCM流程的基本要求,还提供了一个框架,帮助组织评估其流程是否符合RCM的原始宗旨。
SAE JA1011标准对应7个步骤
按照SAE JA1011标准,一个RCM流程必须包括以下七个步骤:
- 勾勒出资产的运营环境、功能以及相关的期望性能标准(运营环境和功能)。
- 确定资产如何无法履行其功能(功能性故障)。
- 定义每个功能性故障的原因(故障模式)。
- 描述每个故障发生时会产生什么后果(故障影响)。
- 对故障后果进行分类(故障后果)。
- 确定应该做什么来预测或防止每个故障(任务和任务间隔)
- 如果主动性任务无法实施,能做什么(默认响应动作)
以上每个问题都依赖于前一个问题的答案,需要将这个内容详细文档化。
运行环境和功能
在对设备/资产应用可靠性中心化维护(RCM)时,首要步骤是明确资产的运行环境和期望的功能。这是设计维护或故障管理策略(即资产管理策略)的基础,要求我们准确理解资产的用途。这种方法要求维护团队改变思维方式,通常情况下,维护部门并不涉及决定资产的具体用途。
为了保证特定有效,我们需要清楚地知道这些功能是什么?并确定功能需要的关键性能参数。
在准确定义运行环境时,RCM团队应该遵循以下结构来描述功能:
- 应详细定义、记录并公开实物资产或系统预期的运行环境(作业条件)。
- 应识别并记录资产/系统的所有主要功能和辅助功能。
- 功能描述应包含动词、对象和可能的情况下的定量性能标准(如可能)。
- 功能描述中的性能标准应反映资产用户在当前运行环境中的期望性能水平,而非设计能力。
运行环境(Operational Context)
根据SAE JA1011标准第5.1.1节,明确定义资产的运行环境是至关重要的。资产的功能、故障模式、故障后果以及故障管理策略不仅受资产本身的影响,还受其具体使用情况的影响。因此,在探讨相关问题之前,必须清晰地界定这些使用情况。
资产的运行环境描述通常包括其使用方式(间歇vs连续生产)、运行强度、地点环境等。
功能(Function)
对于任何组织而言,获取实物资产系统的主要原因在于需要其功能。换句话说,设备/资产为我们执行一项工作或任务,帮助我们实现业务目标。从维护功能的角度来看,我们必须保持实物资产的运行状态,使其继续在既定运行境下满足用户的使用需求。
因此,RCM 流程首先会问:“在当前的运行环境下,我们的系统和其中各设备的功能,以及对应的性能标准是什么?”
请注意,每个资产系统都具有主要功能和辅助功能。主要功能通常可以通过以下问题来定义:“系统/资产存在的目的是什么?” 辅助功能可以通过“遛狗法”(即在 RCM 分析框架内遍历)来确定,以找出除了主要功能之外,系统必须提供的所有其他相关功能。这些功能通常属于以下几类:
- 环境:必须遵守所有适用的环境标准和法规,以防负面影响。如净化、噪音……
- 安全/结构:结构完整性、应急处置相关
- 控制/容纳/舒适:用户如何操控,以及舒适的使用。
- 外观:美观、材料、清洁度相关
- 保护:安全、冗余、故障防控装置
- 经济/效率:能耗及其它费用
- 冗余:备份相关
例如,某人获得汽车的主要原因可能是“以 90 km/h 的速度在合适的道路上运输1-5 人”。
不同运行环境可能导致功能不同,以下是主泵和备用泵的主要功能示例:
- 主泵:在存在类似备用泵的情况下,将水输送速率提升至 300 GPM。
- 备用泵:在主泵发生故障时,能够将水输送速率提升至 300 GPM。
为了更好地理解辅助功能的概念,以下是一些示例:
- 汽车:除了将乘客和货物从一个地方运送到另一个地方的主要功能之外,汽车还具有许多辅助功能,例如空调、音响系统和安全气囊。这些功能旨在提高乘客的舒适度、安全性和便利性。
- 建筑物:除了为居住者或使用者提供庇护的主要功能之外,建筑物还具有许多辅助功能,例如供暖和空调系统、电气系统和消防安全系统。这些功能旨在确保建筑物舒适、安全和功能性。
- 工业设备:除了执行其主要生产功能之外,工业设备还具有许多辅助功能,例如监控系统、润滑系统和安全防护装置。这些功能旨在确保设备可靠、高效和安全运行。
性能标准(Performance Standards)
为了确定资产是否可以维护,我们需要知道两种性能:资产的内置能力和用户在使用资产的环境中可以接受的最低性能。
功能性故障(Functional Failures)
功能性故障定义为“实物资产或系统未能按照期望的性能水平执行特定功能的状态”。深入理解资产的功能和期望的性能水平对于确定功能性故障至关重要。功能性故障可能是完全的或部分的,意味着资产可能完全无法执行某项功能,或者执行得不符合预期水平。
故障是否发生,不是看其是否停机,是完全还是部分,而是看是否满足最低性能预期。
例如,图 1 中泵的主要功能是“以每分钟不少于 800 升的速率将水从水箱 X 抽到水箱 Y”,而辅助功能是“容纳泵中的水”。这样的泵可能能够抽取所需的水量(根据其主要功能未失效),同时泄漏过多(根据其辅助功能失效)。相反,泵也可能恶化到无法抽取所需水量(根据其主要功能失效)的地步,同时仍然容纳所需的液体(根据其辅助功能未失效)。因此,用特定功能的丧失来定义故障比整个资产的故障更准确。
故障可能是隐藏的,例如:保护装置 – 无法在紧急情况下停止输送机运行 (例如:紧急拉绳)。
根据SAE标准,我们需要识别与每个功能相关的所有可能故障状态,以便确定所有相关的故障原因。
故障模式(Failure Mode)
故障模式是导致功能性故障的事件。在此语境中,事件是指任何使资产处于功能性故障状态的根本原因。
上表列出了资产的功能、功能性故障和故障模式,也就是故障模式和影响分析 (FMEA) 的几乎所有元素。每个故障模式的“影响”将在后续步骤中列出上表还显示出,故障模式的描述至少应包含“一个名词和一个动词”。 描述应包含足够细节,以便设计故障管理策略,但也不应过于冗长,以免浪费过多时间在分析过程本身上。
在列出故障模式时,请考虑以下因素:
- 应识别所有合理可能导致每个功能性故障的故障模式。
- 决定哪些故障模式“合理可能性”的应由资产所有者或使用者认可
- 故障模式的因果关系必须详尽到足以指定适当的故障管理策略。
- 分析中应包括以前发生的事件、现有的预防性维护(PM)计划中预防的故障模式,以及其他可能但尚未发生的事件(原因)。
- 人为错误和设计缺陷引起的故障事件也应包括在内,除非这些已通过其他分析方法得到解决。
合理可能性
经过培训的人员(理解RCM 与有经验的使用设备),如果认为故障模式“有可能发生”,那么就应该列出该故障模式。
实际上,有时很难决定是否应该列出某个故障模式。这个问题既与发生概率有关,也与描述故障模式的详细程度有关。
- 列出的故障模式太少或描述细节太少,会导致分析肤浅,有遗漏
- 列出的故障模式太多或描述细节太多,会导致时间浪费(称为“分析瘫痪”的现象),并可能导致维护程序过于繁琐。
在对“合理性”有疑虑或分歧的情况下,最终决定必须由拥有或使用该资产的组织做出,因为如果该故障模式确实发生,最终将由该组织承担后果。
根本原因
术语“根本原因”经常用于故障分析中。只要钻研得足够深入(如5个为什么)。事实上,这不仅非常困难,而且通常也是没有必要的。例如,故障模式“叶轮螺母松动”列在第 3 级,而其原因则是第 4 级中的“叶轮螺母破裂”。如果再向下深入一级,这可能是由“叶轮螺母过度拧紧”(第 5 级)引起的,而这又可能是由“装配错误”(第 6 级)引起的。装配错误可能是因为“技术人员注意力分散”(第 7 级)。他可能会因为“孩子生病”(第 8 级)而分心……显然,这个向下钻取的过程几乎可以无限地进行——远超运维组织所能控制的故障模式范围。这就是为什么 SAE JA1011 要求 RCM 在能够识别适当故障管理策略的因果关系层面上识别故障模式。
对于不同的故障模式,这个层面将有所不同。一些故障模式可能在第 3 级识别,另一些可能在第 5 级识别,其余的则在其他层面识别。
故障影响(Failure Effects)
故障影响衡量每个故障事件可能对工厂或组织造成的“损害”。这涉及到分析“故障模式发生时会发生什么”。为了理解每个故障原因的严重性,建议考虑以下几个相关因素:
- 是否有证据表明故障已经发生?
- 故障对人员安全的影响是什么?
- 故障对环境的影响是什么?
- 故障对生产或运营的影响是什么?
- 故障是否造成了任何现实损害?
- 故障后是否需要采取措施恢复系统功能?
请注意,RCM 明确区分了故障影响(发生什么)和故障后果(故障模式如何以及多大程度地重要)
故障影响描述如果发生故障模式而没有采取预防措施会发生什么的一段文字。这通常通过一个描述(或故事)来表达,描述从资产初期故障开始,到故障迹象出现,最终演变为功能性故障状态的整个过程。
此外,故障效应还涵盖了资产在未受控制情况下的恶化、退化和故障发展过程中产生的所有后果,包括安全、环境和经济影响。需求考虑纠正故障并恢复正常运行所需的成本和努力(包括人力、备件、工具、租赁、其他资源、测试和验证等)。
故障后果(Failure Consequences)
基于故障影响我们应能决定每个故障模式的后果,每个故障模式都有一组特定的后果。按影响涉及安全、环境、运营能力和成本进行分别评估。准确确定故障后果是至关重要的。维护策略是基于故障后果来精心选择的。
后果评估有以下注意事项(SAE JA1011,第 5.5.1 节)
- 后果分类可以按隐藏故障模式与明显故障模式分别评估
- 后果分类过程应清楚把事件(故障模式和多重故障)区分为:具有安全和/或环境后果的和具有经济后果(运营和非运营后果)。
- 评估的假设是对故障没有采取任务预防措施。
维护策略(Maintenance Strategies)
对于每个故障效应,都可以定义一个或多个推荐操作。通常,对于设备或位置和系统的所有者,建议的操作应旨在将相关故障的可能性和后果降低到可接受的水平。推荐措施是故障模式和风险矩阵分析的结果。每个故障模式将会有一个或多个策略建议。
SAE JA1011 标准识别了五种可能的维护策略,用于减轻特定故障后果:
- 基于状态的维护任务:这些任务旨在检测潜在故障。检测应尽早进行,以便采取纠正措施防止功能损失。条件监控任务应定期执行,以便在功能性故障发生前进行趋势分析。
- 计划检修任务:基于组件的预期使用寿命,必须执行基于时间的维护任务。理论上,组件的故障率在寿命结束时会增加到不可接受的水平。此外,还需评估预防性维修的成本效益。
- 计划更换任务:当更换成本低于维修成本时,应考虑计划性报废和更换。建议在组件的“经济”寿命结束时执行此类更换。
- 故障发现任务:这些任务用于检测通常与保护装置或冗余组件相关的隐藏故障。必须确保可以实际执行推荐的故障发现任务,并且任务频率对资产所有者来说是可接受的。
- 重新设计任务:有时,关键故障模式可能找不到合适的时间、条件或故障发现任务。这时,可能需要进行修改(也称为“一次性更改”),以正确解决故障后果。这可能涉及资产的物理配置、操作或维护程序、操作员/维护人员培训或运营环境的变更。
制定维护任务时,必须为其分配适当的频率,以有效解决故障影响。在这方面,SAE JA1011 标准建议项目负责人用特定的数学和统计公式来支持任务间隔的决策。此外,由于RCM流程不能取代现有的法律、法规和/或合同义务,因此在推荐新的维护任务时需要格外小心。建议由有经验的评估人员对RCM流程产出的建议进行复核。
总结
SAE JA1011 标准简洁明了地规定了识别非标准合规分析过程的标准。该标准对于希望获得 RCM 服务(培训、分析、促进、咨询等)的人员特别有用。成功实施 RCM 需要训练有素的多学科团队在经过认证的实施协调员的指导下应用该过程。
RCM的关键成果包括优化的定期维护任务、维护和操作程序的重新设计,以及机器部件的改进。实际案例显示,正确实施RCM不仅能显著减少预防性维护的人工时数,还能提高安全性能,并增强资产的可靠性和可用性,从而带来显著的经济回报。RCM的核心目标是通过合理的应用,保护资产的功能,将故障风险或影响控制在业主可接受的最低水平。
Pingback: 什么是可靠性为中心维护(RCM)? - 数字基座-观点与实践