0
点赞
收藏
分享

微信扫一扫

系统配置类风险怎么排查和管控

楠蛮鬼影 2022-03-15 阅读 48
java配置

目录

一、什么是配置类问题?

二、业界配置类如何控制

三、配置类问题原因分类

1、配置问题原因

2、数据分析

一、什么是配置类问题?

举几个栗子🌰:

1、配置错误,导致营销场景券多发,造成资损。

2、未灰度控制,导致全量新功能后有问题。

3、没有审批机制,修改线上配置,影响正常线上功能。

二、业界配置类如何控制

阿里变更规则从规则和流程两个方向来控制,以变更对象为中心建立统一的变更管控方案。流程引擎具备丰富的流程支持,包括熔断、封网、自定义风险检测流程,且支持灵活的流程编排。规则引擎包括多路协同、规则叠加、多种模式的规则。

Facebook 的新产品功能时配置项较多,每天数千次配置更新,但希望尽早向用户发布这些新功能,以便及时获得用户意见和反馈,然后频繁地进行软件更新来改进产品。即便新功能仍处于开发期,通常把新代码大规模推送到在线服务器但处于禁用状态。使用Gatekeeper 的配置管理工具将产品的新功能逐步在线启用。若出现问题,该平台可以快速禁用新代码,从而避免负面的用户体验。Gatekeeper 能够精确控制哪些用户将首先体验新功能。通常从小规模试用开始。例如最初只有内部员工可使用新功能,反馈良好后放量1%外部用户可以使用新功能。

三、配置类问题原因分类

1、配置问题原因

具体配置问题分类:

目标

故障可能原因

备注

验证能力

  • 测试原因:未对配置信息进行test功能测试或st功能验证、prod灰度验证,未经过任何测试直接上线,这里包含产运、研发、测试同学所有的测试活动。

  • 可测性不足:由于环境或者上下游或业务特殊性未能验证

  • 评估范围不准确:配置影响范围判断有误,验证不完整

审核能力

  • 审批流管理不规范,未达到审批预想结果

  • 变更周知范围不全,信息未到达涉及人员

回溯记录能力

  • 支持配置变更操作记录无法回溯

  • 审批记录相关信息的管理功能欠缺

回滚能力

  • 配置无法及时恢复,根据变更记录一键回滚的能力欠缺

灰度能力

  • 灰度配置变更的能力缺失

流程控制能力

  • 高峰期作业

  • 管理配置的一些工具运营平台存在功能缺陷,例如默认值

  • 工具平台不具备配置预览能力

2、数据分析

配置故障的产生是多个原因导致的。配置问题进行分类分析原因的准则:

  • 反向思考:如果这个原因解决的话,是否能最大限度降低故障影响甚至能预防避免故障的发生;

  • 数据的价值:仅供参考,原因分类按自身原因的维度进行观察,不建议横向对比,因原因的多重复杂,有的无法界定最核心的问题,分类达不到MECE法则。

3、管控计划

具体可以根据前面列出的原因来进行有针对措施的建设。

举报

相关推荐

0 条评论