关于服务等级协议(SLA)的基础知识

服务等级协议(SLA, 又称为服务级别协议,服务水平协议,服务品质协议)定义了用户期望从服务供应商,或是内部另一个服务部门那里得到的服务水平,它规定了衡量服务是否达标的指标。服务水平协议通常是外包和技术服务合同的一个重要组成部分,尤其是IT运维服务中非常常见。除了列出对服务类型和质量的期望外,SLA还提供了当要求没有得到满足时的补救措施。

以下是关于SLA一些常见知识,以及关于如何与供应商与合作伙伴制定有效的SLA的建议。

什么是服务等级协议?

服务级别协议(SLA)定义了客户期望从供应商那里得到的服务水平,规定了衡量该服务的指标,以及如果没有达到约定的服务水平的补救措施或惩罚措施。通常情况下,SLA是在公司和外部供应商之间,但也可能是在公司内部两个部门之间。如生产部门和设备部门,行政部门和信息部门等。

例如,一家电信公司的服务水平协议可能承诺网络可用性达到99.999%(不用算,我们告诉你,这相当于每年大约5.25分钟的停机时间,你可能不信,这对一些高要求的企业来说还是太长了),如果没有达到,允许客户按一定比例减少付款,通常是根据违规的程度进行调整。

为什么需要一个SLA?

SLA是供应商签定技术服务合同的一个组成部分。SLA将所有合同服务的信息和他们商定的预期可靠性汇集到一份文件中。他们清楚地说明了指标、责任和期望,因此,在服务出现问题时,任何一方都不能以无知为借口。它确保双方对要求有相同的理解。

任何没有相关SLA的合同,其交付的方法、质量,都有可能被故意或无意地误解。SLA保护了协议中的双方。

理想情况下,SLA应该与参与的技术或业务目标相一致。如果不能正确的匹配,可能就会结算价格、服务交付质量和客户体验产生不利影响。

谁提供服务等级协议?

大多数服务供应商都有标准的SLA模板–有时是几个,反映了不同价格的各种服务水平–可以作为谈判的一个基础。然而,它们通常都是偏向于供应商的,用户方应当由专业人士来确认这些条款是否合理。

在发出招标书时,客户应将预期的服务水平作为要求的一部分;这将影响供应商的报价,甚至可能影响供应商是否回应决定。例如,如果你要求一个系统有99.999%的可用性,而供应商无法用你指定的设计来满足这一要求,他也许可能会提出一个不同的、更好的方案。

服务等级协议有什么内容?

SLA不仅应包括对所提供的服务及其预期服务水平的描述,而且还应包括衡量服务的指标、每一方的义务和责任、对违反的补救措施或惩罚,以及增加和删除指标的协议。

衡量标准的设计应使任何一方的不良行为都应当同等老师。例如,如果因为客户没有及时提供信息而导致的服务水平末达成,供应商不应受到惩罚。

SLA的关键组成部分是什么?

SLA应该包括两个方面的内容:服务和管理。

服务要素包括“服务目录”,以及“服务水平”,具体包括:所提供服务的具体内容有哪些(如果有可能出现争议,也会明确列出需要排除服务内容)、服务可用性的条件、标准,如每一级服务的时间窗口(例如,工作日和工作时间可能有不同的服务水平)、每一方的责任、升级程序、以及成本/服务的权衡。

管理要素应包括测量标准和方法的定义、报告方式、内容和频率、争议解决程序、保护客户不因违反服务水平而遭受第三方诉讼的赔偿条款(不过,这应该已经提前包括在合同中),以及协议有可能触发更新的机制。

最后一项至关重要;客户方的服务要求和供应商的能力会发生变化,因此必须有一种方法来确保服务水平协议是符合时宜的。

什么是赔偿条款?

赔偿条款是一个重要的条款,其中服务提供商同意对客户公司违反其保证的行为进行赔偿。赔偿意味着,供应商必须向客户支付因其违反保证而导致的任何第三方诉讼费用。如果你使用服务提供商提供的标准SLA,很可能没有这个条款;你可以让内部律师起草一个简单的条款来包括它,尽管服务提供商会就一点进行谈判沟通。

如何验证服务等级是否达成?

大多数服务供应商会提供统计数据,通常是通过在线系统或报表,供客户检查服务水平协议是否被满足,以及他们是否有权获得服务积分或服务水平协议中规定的其他惩罚。

通常情况下,这些流程和方法由服务公司来提供,以确保这些流程和方法能够支持SLA协议。然而,建议客户和服务公司在SLA合同谈判期间一起工作,以消除对支持的过程和方法以及管理和报告方法的误解。

然而,对于关键服务,客户应投资于建设自己可控工具,以自动捕捉SLA性能数据,从而可提供了一个客观的绩效测量。

应该监测什么样的指标?

所需的SLA指标类型将取决于所提供的服务。许多项目可以作为服务等级协议的一部分进行监测,但方案应尽可能简单,以避免混乱和双方的过度成本。在选择指标时,要检查你的操作并决定什么是最重要的。监测(和相关的补救措施)方案越复杂,就越不可能有效,因为没有人有时间来正确分析这些数据。当有疑问时,选择易于收集的指标数据;自动系统是最好的,因为昂贵的人工收集指标不太可能是可靠的。

根据服务的不同,要监测的指标类型可能包括。

  • 响应/处理时效:传统SLA最常见的指标是对需求进行响应,或是完成处理的时限。因为复杂技术故障的处理有不确定性,如果规定处理完成或其它指标对于服务商而言过于苛刻,因此许多服务商会与客户达成响应性的时效条款。
  • 服务可用性:服务可供使用的时间量,也就是非中断时间。这是常见且直接的指标。这可以通过时间段来衡量,例如,在上午8点到下午6点之间需要99.5%的可用性,而在其他时间段则规定更多或更少的可用性。电子商务业务通常在任何时候都有极其积极的服务水平协议;对于一个每小时交易数百万元的网站来说,99.999%的正常运行时间是一个不寻常的要求。
  • 缺陷率。主要交付物中错误的数量或百分比。生产失败,如不完整的备份和恢复,编码错误/重做,以及错过最后期限,都可能包括在这个类别中。
  • 技术质量:在外包应用开发中,通过商业分析工具对技术质量进行测量,这些工具检查程序大小和编码缺陷等因素。
  • 安全性。在这个高度管制的时代,应用程序和网络安全漏洞可能代价高昂。衡量可控的安全措施,如反病毒更新和补丁,是在发生事件时证明所有合理的预防措施的关键。
  • 商业结果。越来越多的IT客户希望将业务流程指标纳入其服务水平协议。只要能计算出供应商对这些关键绩效指标的贡献,使用现有的关键绩效指标通常是最好的方法。

能否创建多个供应商共享的联合SLA?

为了更好的服务最终客户,管理多个服务组织时可以通过制定运营水平协议(OLA)或支持合同(UC – underpinning contract),该协议概述了参与提供IT服务过程的特定各方将如何相互作用,以保持绩效。

下图示例了SLA、OLA以及UC之间的关联:

关于服务等级协议(SLA)的基础知识 1