第三章拥抱风险

不必追求100%的服务可靠性，过分追求服务的可靠性会带来成本的巨大提升，同时减少了新功能的数量及更新频率。

用户本身设备就有可靠性损失，99.99%与99.999%在用户体验上并无太大区别。

服务可靠性成本

高昂的成本主要存在以下两个维度：

度量服务的风险从两个维度，基于时间和基于请求成功率。

可用性=系统正常时间/(系统正常运行时间+停机时间)

此公式对于分布式服务或定时任务更有意义

可用性=成功请求数/总请求数

服务的风险容忍度通常是直接根据基本产品或服务的定义建立的。

评价服务风险容忍度时，有以下几个因素：

基础设施服务与消费者服务的一个根本区别是，基础设施组件有多个用户，而他们通常有很多不同的需求。

评价服务风险容忍度时，有以下几个因素：

使用错误预算的好处是能够激励产品研发和SRE一起找出创新和可靠性之间合理的平衡点。