基于ISO12489看设备的可靠性指标MTBF/MTTF/MTTR

之前的文件介绍了：常见的设备可靠性指标:MTBF/MTTF/MTTR/MTBR

但网上资料与MTTR、MTBF、MTTF有不同的解读。为了更精确的理解这些指标，我们以ISO为文件为基准，对指标进行解度。其实不同的ISO标准对术语缩写的定义也有混淆（如MTTR到底是Time to Restore还是Time to Repair，含义可能并不相同）。因此本文中的主要概念引用自相对完整的标准：《ISO/TR 12489-2013 石油、石化和天然气工业.安全系统的可靠性建模和计算》进行展示。较原文部分措辞有所调整。

基本概念

可靠性 Reliability

R(t)是一个概率值。即一个对象在给定条件下，在给定作业时长内（从0到t时长），可以交付出所需功能的概率。

维护 Maintenance

所有技术（Technical）和行政（administrative，如审批指导）行为的组合，目的是使一个对象保持或恢复到它能执行所需功能的状态。

注释1：维护有两个基本类别：故障发生后的纠正性维护和故障发生前的预防性维护（测试、检查、状态监测、定期维护）。

故障 Failure

丧失按要求执行的能力。对象的故障（Failure）是一个事件，与对象的失效（Fault）不同，后者是一种状态。

理解MTBF、MTTF相关的概念差异

平均故障关停时间 (Mean Down Time： MDT）：

故障停机时长的期望值。

兼容标准：以及ISO 14224[15]或IEC 60050-191[14]关于正常时间（UP）和关停时间（DOWN）的定义。[来源：IEC 60050 -191] 。

平均无故障时间 (Mean Time To Failure: MTTF）

对象故障失效前的期望时长。

注释1：MTTF传统概念是用于描述一个不可修复的对象的失效时间或一个可修复的对象的首次失效时间。当物品在维修后如同新的一样，它对后续的故障也可以用引来表述。
注释2：按上图所示MTTF= 平均值（运行时间 – 停机时间），简化后近似=(总运行时间-故障关停时间)/max(故障次数,1)
注释：不应将MTTF与项目的设计寿命混为一谈。
注释：有时，用某一寿命期的故障概率（即不可靠度）来表示寿命可能更容易理解。

平均故障间隔时间 (Mean Time Between Failure: MTBF)

一个可维修对象的连续故障之间的期望时间。

注释1。在上图所示的情况下，MTBF与MTTF和MTTRes的关系如下。MTBF = MTTF+MTTRes。更一般地说，它也与平均正常时间（MUT）和平均故障关停时间（MDT）相联系，即MTBF = MUT+MDT。
注释2。缩写MTBF有时被定义为故障之间的平均运行时间（例如，在IEV191[14]中）。这就是MTTF的定义。这些定义在不同的文章或系统中非常混乱的，本技术报告中采用的是MTBF的传统定义。

理解MTTR相关的概念差异

平均修复时间 (Mean Time to Repair: MTTR)

实现将故障对象修复的期望时长。

注释1。这个术语MTTR在ISO 14224和ISO 20815中使用，其中没有真正考虑故障发现时间。ISO 14224处理的是已发现的故障（事实上，发现故障阶段所花费的实际时间永远不知道，也无法收集）；ISO 20815主要处理的是立即暴露的故障，检测故障的时间接近于0（即可以忽略不计）。由于故障发现时间对于ISO12489技术报告的目的非常重要，因此还是有必要明确区分以下两个时间：
- 1）从一个对象实际发生故障到暴露出来的时间（MFDT）。
- 2）从发现到一个对象的故障到恢复其功能的时间（MRT）。
注释2。在IEC 60500-191或IEC 61508中，MTTR这一缩写被定义为平均恢复时间（Restore)。这与ISO 14224或ISO 20815中不同。因此，为了避免任何混淆，本技术报告中使用了 MTTRes 的缩写，而不是 MTTR。

平均恢复时间 (Mean Time to restoration: MTTRes)

实现以下行动的预期时间：

发现出故障的时间；以及；
开始修复前的时间；以及；
实际修复的时间；以及；
该对象可重新投入使用前的时间