0
点赞
收藏
分享

微信扫一扫

提升IT系统稳定运营的关键要素

洲行 2023-05-04 阅读 86


目前,随着各行业IT系统云化推进,运维复杂度和系统故障发生的频率不断加大。笔者根据运维经验,总结出消除故障隐患,提升IT系统稳定性的关键要素,主要以下几个方面。

一、人员要求

运维人员对系统要有敬畏心,加强居安思危意识;要具备过硬的专业素养,熟悉云化架构组件,注重实践和经验积累,结合运维经验具备故障预防、风险识别、应急响应、优化改进的能力。

二、管理要求

运维要求要贯穿软件全生命周期,从需求、设计、开发、测试、上线及运营全流程共同制定稳定性指标要求,并按要求实现,不断分析、优化。要制定、完善相应规范。

三、技术要求

结合业务目标,做好系统稳定性架构设计,同步设计保障稳定性的监控、调度工具,提升系统自愈能力,从而降低运维成本,减少故障发生。稳定性架构要从以下几个方面考虑。

1、去除单点

全方面去除单点,包括不限于硬件单点、存储单点、网络单点、网络单点、机房单点、应用服务注册单点,数据单点,内部服务单点,外部访问单点,前端资源单点等。

2、去除依赖

高等级服务不能强制依赖于低等级服务或资源。

3、数据保护及灾备

提升数据安全性,降低RTO,RPO要接近于零。目标是业务不中断,数据不丢失。

4、弹性设计

要具备故障隔离标准,访问控制标准,流量控制标准,服务降级、熔断、容错标准,自动扩容、缩容标准等,并能按照相应标准启动自动处理流程。



举报

相关推荐

0 条评论