# Google SRE 运维解密读书笔记

# 目录

## 第一部分 概览

- [第一章 介绍](1.md)
- [第二章 Google生产环境 SRE视角](2.md)

## 第二部分 指导思想

- [第三章 拥抱风险](3.md)
- [第四章 服务质量目标](4.md)
- [第五章 减少琐事](5.md)
- [第六章 分布式系统的监控](6.md)
- [第七章 Google的自动化系统的演进](7.md)
- [第八章 发布工程](8.md)
- [第九章 简单化](9.md)

## 第三部分 具体实践

- [第十章 基于时间序列数据进行有效报警](10.md)
- [第十一章 on-call轮值](11.md)
- [第十二章 有效的故障排查手段](12.md)
- [第十三章 紧急事件响应](13.md)
- [第十四章 紧急事故处理](14.md)
- [第十五章 事后总结：从失败中学习](15.md)
- [第十六章 跟踪故障](16.md)
- [第十七章 测试可靠性](17.md)
- [第十八章 SRE部门中的软件工程实践](18.md)
- [第十九章 前端服务器的负载均衡](19.md)
- [第二十章 数据中心内部的负载均衡系统](20.md)
- [第二十一章 应对过载](21.md)
- [第二十二章 处理连锁故障](22.md)
- [第二十三章 管理关键状态：利用分布式共识来提高可靠性](23.md)
- [第二十四章 分布式周期性任务系统](24.md)
- [第二十五章 数据处理流水线](25.md)
- [第二十六章 数据完整性：读写一致](26.md)
- [第二十七章 可靠地进行产品的大规模发布](27.md)

## 第四部分 管理

- [第二十八章 迅速培养SRE加入on-call](28.md)
- [第二十九章 处理中断性任务](29.md)
- [第三十章 通过嵌入SRE的方式帮助团队从运维过载中恢复](30.md)
- [第三十一章 SRE与其他团队的沟通与协作](31.md)
- [第三十二章 SRE参与模式的演进历程](32.md)

## 第五部分 结束语

- [第三十三章 其他行业的实践经验](33.md)