# Google SRE 运维解密读书笔记 # 目录 ## 第一部分 概览 - [第一章 介绍](1.md) - [第二章 Google生产环境 SRE视角](2.md) ## 第二部分 指导思想 - [第三章 拥抱风险](3.md) - [第四章 服务质量目标](4.md) - [第五章 减少琐事](5.md) - [第六章 分布式系统的监控](6.md) - [第七章 Google的自动化系统的演进](7.md) - [第八章 发布工程](8.md) - [第九章 简单化](9.md) ## 第三部分 具体实践 - [第十章 基于时间序列数据进行有效报警](10.md) - [第十一章 on-call轮值](11.md) - [第十二章 有效的故障排查手段](12.md) - [第十三章 紧急事件响应](13.md) - [第十四章 紧急事故处理](14.md) - [第十五章 事后总结:从失败中学习](15.md) - [第十六章 跟踪故障](16.md) - [第十七章 测试可靠性](17.md) - [第十八章 SRE部门中的软件工程实践](18.md) - [第十九章 前端服务器的负载均衡](19.md) - [第二十章 数据中心内部的负载均衡系统](20.md) - [第二十一章 应对过载](21.md) - [第二十二章 处理连锁故障](22.md) - [第二十三章 管理关键状态:利用分布式共识来提高可靠性](23.md) - [第二十四章 分布式周期性任务系统](24.md) - [第二十五章 数据处理流水线](25.md) - [第二十六章 数据完整性:读写一致](26.md) - [第二十七章 可靠地进行产品的大规模发布](27.md) ## 第四部分 管理 - [第二十八章 迅速培养SRE加入on-call](28.md) - [第二十九章 处理中断性任务](29.md) - [第三十章 通过嵌入SRE的方式帮助团队从运维过载中恢复](30.md) - [第三十一章 SRE与其他团队的沟通与协作](31.md) - [第三十二章 SRE参与模式的演进历程](32.md) ## 第五部分 结束语 - [第三十三章 其他行业的实践经验](33.md)