在可预见的未来,可观测领域将形成一定意义的标准化。各大厂商、开源项目都在推进标准的统一。首先是指标,Prometheus 作为云原生时代指标数据标准已经形成共识;链路标准也随着 OpenTracing 和 OpenTelemetry 的推行而逐渐占据主流;在日志领域,虽然其数据结构化程度较低难以形成数据标准,但采集存储分析侧涌现出 Fluentd、Loki 等开源新秀;另一方面,Grafana 作为可观测数据展示标准也愈加明朗。但标准虽然统一,但我们也要看到基于统一标准的开源撕裂程度比想象得更为惨烈。
同时,在标准化之外,我们看到可观测领域可预见的七大技术与应用趋势:
- 构建以应用为中心的观测视角:以应用为单位关联指标、链路与日志。利用逐渐成熟的 eBPF 探针技术快速实现全局应用可观测,无侵入应用探针为主 + OpenTelemetry 为辅实现代码级可观测能力。
- 聚焦业务成败与用户体验:精准度量用户体验,关联业务成败。前后端可观测数据打通,实现业务全链路快速问题定位。
- 连接应用管控链路:与运维变更管控体系紧密衔接,实现监-管-控一体化能力。融合安全治理与可观测技术,全面降低 IT 风险。集成混沌工程、性能测试,数据驱动稳定性治理常态化。
- 打破部门墙,建立高效协同机制:建设以 SLO 驱动的应急响应体系,引入 ChatOps 机制,实现去中心化协同。借助数据标签体系快速构建团队及个人可观测视图。
- 标准化指标监测体系建设:围绕 Prometheus 生态构建新一代可观测基础设施,拥抱分布式云架构,建设全局指标监控体系。聚焦指标质量而非数量,持续治理监控体系的有效性。
- 统一可观测界面:“Unify your data, not your database”,借力 Grafana 可视化体系实现异构存储的统一呈现。
展望未来,阿里云认为“观测力”将成为云计算时代每个工程师的核心竞争力。阿里云上越来越多云服务通过主流开源标准将自身运行状态充分白盒化,更好地被云服务使用者集成。工程师们将逐步采纳 Monitoring as code 的方式,实现可观测左移。相比以往,可观测能力构建将成为编写业务逻辑与实施运维自动化的关键环节。
作为管理者,通过可观测技术辅助研发运维的效能管理、IT 成本分析将逐渐成为必备技能;同时管理者也会逐步借力可观测数据,数字化驱动团队成员之间的协作与沟通,以及用于识别企业安全风险。
万物皆可云的时代,可观测性让云变得更易用。可观测的巨大价值正在逐步兑现,我们从监控走进可观测,但不仅仅止步于观测,分析、洞察并实现高质量的决策与业务创新才是观测的最终目的,阿里云也将不断提供这个领域优质的产品与服务。
嘉宾介绍:阿里云资深技术专家,目前就职于阿里云云原生应用平台,负责阿里集团 APM 系统鹰眼(EagleEye)与阿里云应用实时监控服务(ARMS)等技术产品。在可观测相关领域有超过九年的实战经历,在分布式链路追踪、日志处理平台和监控告警系统的建设与应用有丰富经验。其他技术相关的经验包含微服务治理、分布式数据处理、应用 PaaS 等。