1.8 KiB
1.8 KiB
Google SRE 运维解密读书笔记
目录
第一部分 概览
第二部分 指导思想
第三部分 具体实践
- 第十章 基于时间序列数据进行有效报警
- 第十一章 on-call轮值
- 第十二章 有效的故障排查手段
- 第十三章 紧急事件响应
- 第十四章 紧急事故处理
- 第十五章 事后总结:从失败中学习
- 第十六章 跟踪故障
- 第十七章 测试可靠性
- 第十八章 SRE部门中的软件工程实践
- 第十九章 前端服务器的负载均衡
- 第二十章 数据中心内部的负载均衡系统
- 第二十一章 应对过载
- 第二十二章 处理连锁故障
- 第二十三章 管理关键状态:利用分布式共识来提高可靠性
- 第二十四章 分布式周期性任务系统
- 第二十五章 数据处理流水线
- 第二十六章 数据完整性:读写一致
- 第二十七章 可靠地进行产品的大规模发布
第四部分 管理
- 第二十八章 迅速培养SRE加入on-call
- 第二十九章 处理中断性任务
- 第三十章 通过嵌入SRE的方式帮助团队从运维过载中恢复
- 第三十一章 SRE与其他团队的沟通与协作
- 第三十二章 SRE参与模式的演进历程