您现在的位置是:课程

SRE技术实战分享

2023-11-06 21:42课程 人已围观

第16章 跟踪故障——谷歌的如何跟踪故障,有哪些最佳实践;

一、跟踪故障 – 为什么使用故障跟踪系统

1、提高可靠性的唯一可靠的方法论就是,建立一个基线,同时不断跟踪改变。

Outalator – 一个故障跟踪工具,被动收集监控系统发出的所有警报,同时提供标记、分组和数据分析功能。

2、 系统性地从发生过的问题中学习,是服务运维的必要手段。

事后总结 – 单个故障详细信息(影响非常大的故障)

故障跟踪工具 可以跟进从全局看非常有用,但是对单个故障不那么划算的改进讨论。

二、跟踪故障 – Escalator 报警通知系统
三、跟踪故障 – Outalator – 聚合
四、跟踪故障 – 未预料到的好处

第17章 为可靠性而测试——软件测试和大规模测试在谷歌SRE团队的实践;
一、为什么SRE也使用软件测试技术?
二、SRE使用哪类软件测试?
三、大规模测试在SRE团队的应用

第18章  SRE部门中的软件工程实践——软件工程给SRE部门带来的收益及如何在SRE团队培养软件工程风气;
一、为什么软件工程对SRE很重要?
二、Auxon案例分析
三、解决方案:基于意图的容量规划
四、在SRE团队中培养软件工程风气


      

 

-->

站点信息

  • 文章统计篇文章