readnotes/devops/googlesre/15.md

55 lines
1.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 第十五章 事后总结:从失败中学习
书写事后总结的主要目的是为了保证该事故被记录下来,理清所有根源问题,确保实施有效的措施使得未来重现的几率和影响降低甚至避免重现。
书写事后总结不是一种惩罚措施,而是给整个公司一个学习的机会。
## 基本事后总结条件
事后总结应对事不对人,重点关注如何定位造成这次事件的根本问题。
- 用户可见的宕机时间或者服务质量降级程度达到一级标准
- 任何类型的数据丢失
- on-call工程师需要人工介入的事故,包括回滚、切换用户流量等
- 问题解决耗时超过一定限制
- 监控问题,预示着问题是由人工发现而非报警系统
## 协作和只是共享
事后总结工作流程的每一步都包括团队协作和知识共享。
事后总结的过程还包括正式的评审和发布过程,团队首先内部发布,同时依据如下条件评审:
- 关键的灾难数据是否已被收集并保存
- 本次事故的影响评估是否完整
- 造成事故的根源问题是否足够深入
- 文档中记录的任务优先级是否合理,能否及时解决根源问题
- 事故处理的过程是否共享给了所有相关部门
## 建立事后总结文化
SRE通过组织一些集体活动来更好的建立事后总结文化
- 分享本月最佳事后总结
- 组建事后总结讨论小组
- 组织事后总结阅读俱乐部
- 参见命运之轮游戏--再现事后总结场景,扮演其中的角色进行演习活动。
对投入产出比的质疑是对引入事后总结机制的最大阻力,以下策略来帮助面对这个挑战:
- 逐渐引入事后总结流程,首先进行几次完整和成功的事后总结,证明其价值并确定书写的条件
- 确保有效的书面总结,提供奖励和庆祝
- 鼓励公司高级管理层认可和参与其中