故障和问题

故障和问题

故障定义: 可能会造成服务中断或者服务质量下降的非标准服务操作时间——任何降低服务质量的事件。
问题定义: 不明原因引起的一个或者多个故障,被确认为多个类似故障的结果。
事故管理——DRIER:

  • Detect(检测): 通过监控或与客户联系检测事故;
  • Report(报告): 报告事故,记入负责跟踪全部事故、失效或其他事件的系统;
  • Investigate(调查): 调查事故以确定该做什么;
  • Escalate(升级): 如果事故在规定的时间内没能解决,尽快升级;
  • Resolve(解决): 通过恢复最终用户需要的功能和记录所有的信息,为解决事故做跟进;

refs:《架构即未来》

一般在工作应用中,会对问题进行分级,比如P0/P1/P3,在组织内对不同级别的问题处理流程和信息同步方式。
不论任何程度的问题,对应的问题跟踪记录、复盘都是责任相关者的基本工作。

留下回复