readnotes/devops/googlesre/15.md

1.9 KiB
Raw Blame History

第十五章 事后总结:从失败中学习

书写事后总结的主要目的是为了保证该事故被记录下来,理清所有根源问题,确保实施有效的措施使得未来重现的几率和影响降低甚至避免重现。

书写事后总结不是一种惩罚措施,而是给整个公司一个学习的机会。

基本事后总结条件

事后总结应对事不对人,重点关注如何定位造成这次事件的根本问题。

  • 用户可见的宕机时间或者服务质量降级程度达到一级标准

  • 任何类型的数据丢失

  • on-call工程师需要人工介入的事故,包括回滚、切换用户流量等

  • 问题解决耗时超过一定限制

  • 监控问题,预示着问题是由人工发现而非报警系统

协作和只是共享

事后总结工作流程的每一步都包括团队协作和知识共享。

事后总结的过程还包括正式的评审和发布过程,团队首先内部发布,同时依据如下条件评审:

  • 关键的灾难数据是否已被收集并保存

  • 本次事故的影响评估是否完整

  • 造成事故的根源问题是否足够深入

  • 文档中记录的任务优先级是否合理,能否及时解决根源问题

  • 事故处理的过程是否共享给了所有相关部门

建立事后总结文化

SRE通过组织一些集体活动来更好的建立事后总结文化

  • 分享本月最佳事后总结

  • 组建事后总结讨论小组

  • 组织事后总结阅读俱乐部

  • 参见命运之轮游戏--再现事后总结场景,扮演其中的角色进行演习活动。

对投入产出比的质疑是对引入事后总结机制的最大阻力,以下策略来帮助面对这个挑战:

  • 逐渐引入事后总结流程,首先进行几次完整和成功的事后总结,证明其价值并确定书写的条件

  • 确保有效的书面总结,提供奖励和庆祝

  • 鼓励公司高级管理层认可和参与其中