readnotes/devops/googlesre/14.md

2.6 KiB
Raw Blame History

第十四章 紧急事故管理

有效的紧急事故管理是控制事故影响和迅速恢复运营的关键因素。

紧急事故的流程管理要素

紧急事故流程管理的技巧和手段都是为了让这些富有热情的人能够真正帮上忙。

Incident Command System是一个紧急事故管理系统。

嵌套式职责分离

在事故处理中,让每个人清楚自己的职责是非常重要的,系统中有如下角色可以分配:

  1. 事故总控。 负责掌握此次事故的概要信息,组建事务处理团队,分配并协调处理工作

  2. 事务处理团队。 团队负责人与总控沟通并指挥团队具体执行合适的事务来解决问题,事务处理团队是一次事故中唯一能对系统做修改的团队

  3. 发言人。 本次事故处理团队的公众发言人,职责包括向相关人员发送周期性通知,同时维护目前的事故文档,保证其正确性和信息及时性。

  4. 规划负责人。 为事务处理团队提供支持。负责一些持续性的工作,同时负责记录在处理过程中对系统进行的特殊操作,以便未来事故结束后可以复原。

控制中心

让处理问题的全部成员到同一个地方办公并使用聊天工具和e-mail进行远程沟通。

实时事故状态文档

事故总控负责人维护一个实时事故文档,该文档最好可以多人同时编辑。

明确公开的职责交接

当超出工作时间以后,事故负责人的职责必须明确公开的进行交接,交接结果应该宣布给其他正在处理事故的人,明确目前的事故处理负责人

什么时候对外宣布事故

当下面任何一条条件满足时,事故应该被及时公布

  • 需要引入第二个团队来帮助处理问题

  • 事故影响了最终用户

  • 在集中分析一小时后,依然没有得到解决

事故流程管理的最佳实践

  • 划分优先级 控制影响范围,恢复服务,同时为根源调查保存现场

  • 事前准备 事先和所有事故处理参与者一起准备一套流程

  • 信任 充分相信每个事故处理参与者,分配职责后让他们自主行动

  • 反思 在事故处理过程种注意自己的情绪和精神状态,如果发现自己开始惊慌失措或者感到压力难以承受,应该寻求更多帮助。

  • 考虑替代方案 周期性的审视目前的情况,重新评估目前的工作是应该继续执行还是需要执行其他更重要或更紧急的事情

  • 练习 平时不断地使用这项流程,直到习惯成自然

  • 换位思考 每次故障可以换一个不同的职责试试,鼓励每个团队成员熟悉流程中的其他角色