0
点赞
收藏
分享

微信扫一扫

大厂https证书这样管,你还担心证书过期忘记更新?

哈哈镜6567 2023-02-23 阅读 79

由于证书的时效限制,因证书过期忘记更换出现的故障屡见不鲜,而且影响都比较严重,用户量越大,灾难性越强。

既然大家都知道证书的破坏力,那么为什么过期问题还是接二连三的出现呢?

分析看,一来证书是一个正常时期少有人关注的东西,只有过期了才知道他的破坏力,容易忽视轻敌;二来在互联网企业,随着业务线的增长,证书可能成百上千,再加上最初的使用没有做好规划,在这个背景下,叠加业务调整、人员流动,证书一多管理上的漏洞马上被触发,特别是有些完全依靠纯人肉管理的更是极不靠谱;三来一般证书告警系统逻辑复杂,系统时而会因各种原因出bug,而且工程师也时常会因告警太多而打盹(现实问题)。


1、思考设计

从全局思考,在AiFault上研发基于全量域名的证书巡检系统,建立证书周巡检制度,从被动告警处理到主动巡检更新

流程上,从源头(域名系统)上自动化拉取公司的全量域名,通过443端口识别出是否是https,对域名的每条解析进行自动递归探测(兼容cname等各种复杂场景),直到探测到每个IP,为了巡检功能的完整性,研发支持小米外的互联网域名,进而杜绝一切漏网之鱼。PS 当前机制,外部域名无法拿到全部解析,只有从当前服务器解析出来的记录。

2、全局Top看板

业务巡检界面如下,对所有域名证书剩余天数做了top排序,并进行了异常标色,黄色代表要开始关注了(<30天过期),红色(<15天过期)代表要重点关注着手处理了。

还设计了很多实用的小功能,比如全局更新是每天一次计划任务,为了让刚更新的证书马上看到信息,同时检查有没有更新成功,研发了手动刷新功能,点击后实时更新特定域名;再比如很多客户端只支持特定的证书机构,我们将证书机构也展示了出来,续费时可以指定厂家,等等。

大厂https证书这样管,你还担心证书过期忘记更新?_运维

3、递归探测到每个IP解析

只做域名维度的过期top排序还是不够的,比如说证书本身没过期,但域名下面有多个vip,其中有一个vip的证书忘记更新了,这时巡检会产生的效果图如下:

大厂https证书这样管,你还担心证书过期忘记更新?_服务器_02

可以看到红色标记的vip证书还有3天过期,但其他的vip还有365天过期,有两个vip成了漏网之鱼,巡检发现后立马处理。

4、加持巡检制度

在制度设计上,每周一由oncall同学进行巡检,并将要更新的证书通过jira分发下去,负责更新的同学更新后再到系统上DoubleCheck形成闭环,通过这套组合拳,证书忘记更新的问题再也不用担心了。


大厂https证书这样管,你还担心证书过期忘记更新?_服务器_03

PS:系统已开放到全集团使用,一上线就避免了很多潜在故障,例如:

大厂https证书这样管,你还担心证书过期忘记更新?_证书_04


大厂https证书这样管,你还担心证书过期忘记更新?_运维_05

举报

相关推荐

0 条评论