目录
一、什么是配置类问题?
举几个栗子🌰:
1、配置错误,导致营销场景券多发,造成资损。
2、未灰度控制,导致全量新功能后有问题。
3、没有审批机制,修改线上配置,影响正常线上功能。
二、业界配置类如何控制
阿里变更规则从规则和流程两个方向来控制,以变更对象为中心建立统一的变更管控方案。流程引擎具备丰富的流程支持,包括熔断、封网、自定义风险检测流程,且支持灵活的流程编排。规则引擎包括多路协同、规则叠加、多种模式的规则。
Facebook 的新产品功能时配置项较多,每天数千次配置更新,但希望尽早向用户发布这些新功能,以便及时获得用户意见和反馈,然后频繁地进行软件更新来改进产品。即便新功能仍处于开发期,通常把新代码大规模推送到在线服务器但处于禁用状态。使用Gatekeeper 的配置管理工具将产品的新功能逐步在线启用。若出现问题,该平台可以快速禁用新代码,从而避免负面的用户体验。Gatekeeper 能够精确控制哪些用户将首先体验新功能。通常从小规模试用开始。例如最初只有内部员工可使用新功能,反馈良好后放量1%外部用户可以使用新功能。
三、配置类问题原因分类
1、配置问题原因
具体配置问题分类:
目标 | 故障可能原因 | 备注 | |
---|---|---|---|
验证能力 |
| ||
审核能力 |
| ||
回溯记录能力 |
| ||
回滚能力 |
| ||
灰度能力 |
| ||
流程控制能力 |
|
2、数据分析
配置故障的产生是多个原因导致的。配置问题进行分类分析原因的准则:
-
反向思考:如果这个原因解决的话,是否能最大限度降低故障影响甚至能预防避免故障的发生;
-
数据的价值:仅供参考,原因分类按自身原因的维度进行观察,不建议横向对比,因原因的多重复杂,有的无法界定最核心的问题,分类达不到MECE法则。
3、管控计划
具体可以根据前面列出的原因来进行有针对措施的建设。