readnotes/devops/googlesre/16.md

1002 B
Raw Blame History

第十六章 跟踪故障

提高可靠性的唯一可靠方法论是建立一个基线,同时不断跟踪改变。

系统性地从过去发生过的问题中学习是服务运维的必要手段。

Outalator

outalator是一个故障跟踪工具。

聚合

将多个报警信息“聚合”成一个单独的故障能够有效解决一个故障触发多个报警的问题。

加标签

不是每个报警信息都代表一次故障,可以添加标签给报警信息来进行区分

分析

SRE不仅仅是响应和处理故障分析历史数据对响应某个故障非常有帮助数据分析的下一步是找到影响更广泛的问题而不就仅仅是简单的计数。

报告和公告

选择一系列故障,将所有故障信息发给其他工程师

未预料到的好处

能够将某条报警或者某系列报警跟其他某个故障连接起来,可以加快检查速度和通过确认目前的确有某项故障以降低其他团队的压力。