理解FMEA(FMECA)和RCM的区别

在选择合适的设备维护策略时,许多组织会在FMEA(故障模式与影响分析)和RCM(可靠性中心维护)之间做出选择。这两种方法均对维护管理至关重要,但单纯依赖FMEA肯定是不够的。

FMEA是一种起源于1940年代美国军方的流程分析工具,主要用于逐步识别产品设计、制造或服务中的潜在故障模式。这种方法已被广泛应用于多个行业,并根据不同的应用需求发展出多种标准。

相较于FMEA,RCM方法始于1978年的航空航天行业,由Nowlan和Heap的研究报告首次详细介绍,主要用于制定计划性维护程序,目标是以最低成本实现设备的固有可靠性。1999年,美国汽车工程师协会(SAE)发布的《SAE JA1011-2009 可靠性为中心的维修》标准,进一步明确了RCM流程必须满足的要求。

一项针对财富500强制造企业的调查,评估了RCM和FMEA的应用效果,发现尽管全球范围内广泛使用FMEA,但它几乎无法减少维护任务,反而可能增加任务量。

FMEA与RCM的主要区别

  1. RCM提供了更为稳健和结构化的决策逻辑,用于制定风险管理策略,而FMEA主要用于识别故障模式。
  2. FMEA侧重于单个组件,而RCM则关注于保护系统的主要和次要功能。
  3. RCM系统性地分析功能及其关联设备的失效风险。

让我们仔细分解一下每种方法的运作方式。

如何有效运用FMEA和FMECA进行组织维护

故障模式与影响分析(FMEA)是一种起源于1940年代美国军方的系统化技术。它是用来逐步识别和分析设计、制造或组装过程中,以及产品或服务本身可能存在的潜在故障的方法。FMEA也是一种广泛应用的流程分析工具。

  • “故障模式(Failure Mode)”指的是事物可能发生故障的各种方式。“故障”则是指任何形式的错误或缺陷,特别是那些可能影响客户的故障。
  • “影响分析(Effects analysis)”涉及对这些故障可能导致的后果进行研究。

FMEA的核心目标是通过采取措施来消除或减轻故障的风险,优先处理那些最严重或最可能发生的故障。这种方法不仅帮助提高产品和服务的质量,还能增强客户满意度和产品的市场竞争力。

FMEA的关键步骤包括:

  1. 故障后果的严重程度:评估故障发生后对功能的影响程度。
  2. 故障发生的频率:估计故障发生的可能性或频率。
  3. 故障的易检测性:评估在日常运营中检测到该故障的难易程度。

FMEA流程不仅有助于识别高风险故障模式,还记录现有的故障风险和改进措施,以便持续优化。这种分析应从设计初期开始,并贯穿产品或服务的整个生命周期。

FMEA的系统性研究

FMEA方法专注于系统内各个组件的故障模式,并评估这些故障对整个系统的影响。它与危害操作分析(HAZOP)相似,都旨在识别并记录现有的保护措施及改进建议。然而,FMEA过程可能忽略与处理或输送的物质相关的问题,如不适当的密封件可能导致输送氯气的泵发生故障。因此,FMEA最适用于那些组件的物质类型影响较小或可忽略的流程。

故障模式、影响和关键性分析(FMECA)

FMECA是FMEA的扩展,在评估和记录的基础上,提供了更深入的潜在影响或后果分析,例如:

  • 对任务成功的影响
  • 人员安全
  • 系统性能
  • 可维护性
  • 维护需求的潜在影响。

FMECA的信息是可靠性中心维护(RCM)流程的关键输入之一。

按照《MIL-STD-1629A 执行故障模式影响和临界性分析》定义,FMECA是一种分析工具,用于对每个硬件设备,评估其功能、功能故障、故障模式、故障影响。

在采用FMEA、FMECA分析是,并不一定(也可以是)从识别功能开始。如果需要识别功能,那功能通常是定义在组件级别。这有可能导致忽略某些潜在故障模式。

理解可靠性中心化维护 (RCM) 方法

可靠性中心化维护(RCM)是一种起源于航空航天行业的维护策略,专注于以最低成本实现设备的固有可靠性。RCM通过一个结构化的决策框架,帮助确定既技术可行又经济合理的维护策略,目的是将故障风险降至可接受水平。

RCM的决策过程

RCM(可靠性中心维护)方法论最初由航空业发展而来,主要用于创建系统的计划性维护程序。该方法的核心目标是确保设备能够达到其设计的固有可靠性,同时尽量减少成本。这一方法通过一套结构化的决策指南,帮助用户采取技术上可行且成本效益高的策略,以降低故障风险到一个可接受的水平。

在RCM程序中,每项计划性维护任务都是为了一个明确的原因而设立的。我们会评估每种故障模式可能导致的后果,并根据这些后果的严重性来对故障模式进行分类。

对于那些影响操作安全、环境或可能导致重大经济损失的关键项目,我们会根据任务的适用性和有效性进行细致评估。因此,形成的计划性维护方案将只包括确保安全、环保和操作可靠性所必需的任务。

请注意,我们采用一种结构化的RCM决策逻辑图来确定初始的维护任务,这些任务是基于它们的适用性和有效性来选择的。如果无法确定具体的维护任务,我们可能会考虑重新调整规划。

在开发RCM方法论的过程中,John Moubray 强调,实物资产的可靠性不仅取决于如何进行维护,还涉及到设备的设计、安装/调试、操作和维护等方面。这些因素共同作用,决定了设备的整体可靠性。

John Moubray 在 1996 年将 RCM(可靠性中心维护)的定义简化为如下:

可靠性中心维护:一个过程,用于确定必须做什么,以确保实物资产继续在其运营环境中可完成用户所期望的任务。

SAE JA1011 标准(1999年)对 RCM 的定义如下:

RCM是一个专门的过程,旨在确定必须执行的策略,这些策略用于管理那些可能导致实物资产在特定运行环境中功能失效的故障模式。

根据RCM的定义,明确运行环境(operating context)是启动RCM过程的关键第一步。为了实现这一点,RCM分析人员需要使用两种工作表:信息工作表(IW)和决策工作表(DW)。信息工作表(IW)主要记录与运行环境相关的信息,并与故障模式及影响分析(FMEA)过程相结合。

定义RCM决策逻辑、任务评估和任务选择

当RCM分析人员在故障模式与影响分析(FMEA)过程中确定了关键功能后,他们将使用RCM决策逻辑来进一步分析这些功能。RCM决策逻辑是一个系统化的问答流程,用于确定采取哪种措施可以消除或减轻功能失效的影响。分析人员将在RCM决策工作表中记录对故障模式的详细分析。每个功能可能包含一个或多个故障模式,每种故障模式都需通过决策逻辑来判断是否能够制定出预防性维护任务,以降低其发生的风险。

在分析每个故障模式时,决策逻辑要求考虑以下几个要素:

  • 操作团队(设备运行使用人员)是否能够察觉到功能故障,或者故障是否不易被发现(如保护系统)
  • 故障带来的固有风险,包括安全性、环境影响、操作影响和经济影响
  • 故障抵抗力的降低,比如完全故障与部分故障
  • 每个部件的老化与可靠性特征
  • 基于成本或风险,比较执行预测性或预防性维护任务与不执行这些任务的权衡

RCM的决策逻辑明确且结构化,这是其与FMEA过程的主要区别,并且有助于去除那些技术上不可行或不值得进行的维护任务,同时为维护计划提供了技术基础。此外,运行环境的不同也使得可以进一步优化决策的技术基础。

RCM对于处理保护装置以管理多重故障的风险采取了独特而明确的方法,而FMEA通常只关注主系统的单一故障模式。因此,RCM的结果通常是对整个系统更为合理和可靠的风险策略定义。

理解FMEA(FMECA)和RCM的区别 1

尽管FMEA流程很有价值,但通常不足以应对所有需求

FMEA最初是为了评估可能影响设计完整性的潜在故障模式而设计的。虽然会应用于运行使用中的设备,但FMEA主要还是专注于设计的完整性。

为了更具体地研究如何进行维护以确保设备能够持续满足用户的需求,我们开发了可靠性中心维护(RCM)流程。实践中,我们发现RCM流程能够提供一个更为健全的维护计划,这一计划基于技术的正确性,并且相比FMEA分析,RCM需要的维护任务更少。这是因为RCM会评估每项提议的任务是否真正有价值。此外,RCM分析考虑的是整个系统,因此它能够更全面地覆盖系统中的所有设备。相比之下,FMEA只关注单个组件的分析,可能会遗漏一些设备。

需要强调的是,FMEA或FMECA并不是一个用于发展维护策略的工具。一旦确定了故障模式和影响,用户需要自行找出如何管理这些故障的方法。而RCM包括了一个严格的正式过程,用于为每种故障模式制定一个既技术上可行又值得执行的故障管理政策。

RCM流程从确定系统在特定运行环境下的功能开始。在RCM中,FMEA部分是根据“用户希望资产完成什么任务”(功能)以及“可能导致任务失败的原因”(故障)来进行的,而且这一分析是在系统级别上进行的。如果涉及到功能,FMEA通常在组件级别定义这些功能,因此可能会忽略掉许多可能发生的故障模式。

在设计阶段,FMEA可以用来快速启动生产线,识别多种可能的故障模式及其管理任务。然而,一旦设计完成并且生产线投入运行,仍然需要制定一个正式的故障管理策略来评估各种政策决策,如主动维护任务、故障检测、重新设计和耗损使用。这正是RCM流程所能实现的。

使用过FMEA,可以大大减少实施RCM工作量。可以将FMEA中的故障模式和影响导入到RCM的评估中。接下来,用户可以确定在当前运行环境中可能发生的其他故障模式。这时,RCM评估人员可以在系统级别进行后果评估,并建立相应的风险管理政策。