Xiaowen.Z Deployed

"We all learn by making mistakes, and make mistakes again to learn more."

Problem Management Methodology 问题管理的基本逻辑

xiaowenz / 2022-03-17

1603 characters in total, estimated 4 minutes to read.


问题的定义

Problem is an issue that could cause an incident.

相比较于事故(Incident),问题描述的是一种可能产生事故的概率,是一种对于已知风险的量化表达。问题并不需要总是用来代表技术性的缺陷(如代码Bug),问题也不应该用来代表RCA的过程(Root Cause Analysis),而应该仅在RCA或Post Mortem完成后,记录和跟踪风险及风险的后续的修复或补偿措施。

问题的定级

基于问题的定义,因为问题是描述可能产生事故的风险,可以很容易理解问题定级的两个参考维度:

结合这两个维度,得出问题定级的矩阵(Matrix)。

经典风险管理理论中,风险的量化表达 = 风险的概率 * 风险的损失 * 时间跨度。因此,实质的风险在ITSM中可描述为 问题的定级(风险的概率 * 风险的损失) * 时间。

问题的定级约高,意味着相同的风险暴露时间内,对应的损伤相对企业来说约大,因此问题责任方有义务在更快的时间内修复或补偿该问题。定级约高,要求修复的时间应约快。而实际上,在此公式中,{问题的定级(风险的概率 * 风险的损失) * 时间} 对应的量化,应随着企业的整体风险偏好**(Risk appetite)**做调整——企业在某个阶段的风险偏好低,那么同样等级的问题要求的修复时效应该约低,反之亦然。

问题的降级

定级问题的修复往往随着问题的复杂度,修复难度,和修复问题所产生的其他风险,对应了“修复成本”,“修复时间”和现实情况的冲突。很多时候,对于已完成根因分析的问题(Known Issue),是存在经过验证的补偿性措施(Workaround)可以通过降低:

中的一种,或两种同时,来降低问题对应的风险实质的敞口。基于补偿性措施就绪后,问题的实质性风险降低,通过重新的定级(一般是降级)后可获得对应的更长的修复时效,甚至无需修复(见后章节)。

例子:

问题的修复的要求

一般来说,对于企业的风险管理的角度,并不要求绝对的0风险。只有在风险敞口大于企业风险偏好的情况下,该风险应要求进行控制。问题的控制(Mitigation)可能是:

不是所有的问题都是需要永久修复的,因为不是所有的风险,都是能够被完全消除的。

问题的识别

为确保科技部门内的风险,能够有效的进入问题管理的流程,问题管理的一般实践会明确定义问题入口,即识别过程且部分识别过程是强制的。

具体方法论参考:

问题管理的有效性前提