readnotes/devops/googlesre/10.md

888 B
Raw Blame History

第十章 基于时间序列数据进行有效报警

监控处于整个生产环境需求金字塔模型(参见第三部分 具体实践)的最底层。监控是运营一个可靠的稳定服务不可缺少的部分。

本章主要讲Google的内部监控系统borgmon, Prometheusborgmon的一个开源实现

应用软件的监控埋点

Google内部产生的每个二进制文件中都默认包含一个HTTP服务同时每种主流编程语言都提供了一个编程接口可以自动注入暴露指定的程序变量。软件服务器作者可以随后对这个变量进行简单地增加操作或者直接修改这个变量的值。Go语言中的expvar标准库和他的JSON输出格式也提供了类似的API。

监控指标的收集

一套服务发现体系可以降低监控系统的配置维护难度,允许监控系统自动扩展。