Xiaowen.Z Deployed

"We all learn by making mistakes, and make mistakes again to learn more."

Incident RCA and Problem Identification

xiaowenz / 2022-03-18

1190 characters in total, estimated 3 minutes to read.


本指引用来描述一般意义的由生产事故作为入口的根因分析和问题管理方法。

背景

问题管理原则

问题管理的最终目标,是提高服务的业务可用性(Availability)。服务可用性以生产事故(Incident)的产生而中断,已生产事故的修复而恢复。服务可用性的提高,大多数时候表现为:

(三个固定问题)

MTTR及相关定义

问题管理的常规方法论

以MTBF的扩大为导向,分析事故的根因,制定规避方案

以MTTR时间线为导向,分析事故的修复过程中的各个重要环节,识别低效率点,并制定改进方案

建议:对每个改进面创建问题单,进行定级,分拣和后续推进

MTBF:通过修复根因,评估修复方案和改进点

MTTR:通过时间线分析,评估改进点